期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
面向机械臂轨迹规划的强化学习奖励函数设计 被引量:2
1
作者 靳栋银 李跃 +2 位作者 邵振洲 施智平 关永 《计算机工程与应用》 CSCD 北大核心 2022年第19期302-308,共7页
针对基于深度强化学习的机械臂轨迹规划方法学习效率较低,规划策略鲁棒性差的问题,提出了一种基于语音奖励函数的机械臂轨迹规划方法,利用语音定义规划任务的不同状态,并采用马尔科夫链对状态进行建模,为轨迹规划提供全局指导,降低深度... 针对基于深度强化学习的机械臂轨迹规划方法学习效率较低,规划策略鲁棒性差的问题,提出了一种基于语音奖励函数的机械臂轨迹规划方法,利用语音定义规划任务的不同状态,并采用马尔科夫链对状态进行建模,为轨迹规划提供全局指导,降低深度强化学习优化的盲目性。提出的方法结合了基于语音的全局信息和基于相对距离的局部信息来设计奖励函数,在每个状态根据相对距离与语音指导的契合程度对机械臂进行奖励或惩罚。实验证明,设计的奖励函数能够有效地提升基于深度强化学习的机械臂轨迹规划的鲁棒性和收敛速度。 展开更多
关键词 深度强化学习 机械臂 轨迹规划 语音奖励函数
在线阅读 下载PDF
面向轨迹规划的深度强化学习奖励函数设计 被引量:13
2
作者 李跃 邵振洲 +2 位作者 赵振东 施智平 关永 《计算机工程与应用》 CSCD 北大核心 2020年第2期226-232,共7页
现有基于深度强化学习的机械臂轨迹规划方法在未知环境中学习效率偏低,规划策略鲁棒性差。为了解决上述问题,提出了一种基于新型方位奖励函数的机械臂轨迹规划方法A-DPPO,基于相对方向和相对位置设计了一种新型方位奖励函数,通过降低无... 现有基于深度强化学习的机械臂轨迹规划方法在未知环境中学习效率偏低,规划策略鲁棒性差。为了解决上述问题,提出了一种基于新型方位奖励函数的机械臂轨迹规划方法A-DPPO,基于相对方向和相对位置设计了一种新型方位奖励函数,通过降低无效探索,提高学习效率。将分布式近似策略优化(DPPO)首次用于机械臂轨迹规划,提高了规划策略的鲁棒性。实验证明相比现有方法,A-DPPO有效地提升了学习效率和规划策略的鲁棒性。 展开更多
关键词 深度强化学习 机械臂 轨迹规划 方位奖励函数
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部