期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于行为克隆和奖励重构的AGV路径规划算法
1
作者 罗磊 赵宁 任成栋 《计算机集成制造系统》 北大核心 2025年第10期3744-3761,共18页
针对使用强化学习算法解决移动机器人拣选系统(RMFS)中AGV路径规划所存在的数据利用效率低、有效数据采集困难的问题,提出一种结合行为克隆方法和奖励重构方法的新的强化学习训练框架,来提升神经网络的训练效果。行为克隆方法通过监督... 针对使用强化学习算法解决移动机器人拣选系统(RMFS)中AGV路径规划所存在的数据利用效率低、有效数据采集困难的问题,提出一种结合行为克隆方法和奖励重构方法的新的强化学习训练框架,来提升神经网络的训练效果。行为克隆方法通过监督学习的方式,让神经网络直接学习专家经验,来迅速提升神经网络的决策能力;奖励重构方法通过更加精细的奖励值函数设计,来提升强化学习的训练效果。实验表明,同时使用行为克隆方法与奖励重构方法的强化学习过程,其训练效果远优于标准的强化学习算法(既不使用行为克隆方法也不使用奖励重构方法)。 展开更多
关键词 移动机器人拣选系统 自动导引小车 路径规划 策略梯度算法 行为克隆 奖励重构
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部