-
题名面向机械臂轨迹规划的强化学习奖励函数设计
被引量:2
- 1
-
-
作者
靳栋银
李跃
邵振洲
施智平
关永
-
机构
首都师范大学信息工程学院
首都师范大学轻型工业机械臂与安全验证北京市重点实验室
河北工业职业技术学院计算机技术系
首都师范大学成像技术北京市高精尖创新中心
-
出处
《计算机工程与应用》
CSCD
北大核心
2022年第19期302-308,共7页
-
基金
国家自然科学基金(61772351,61602326,61602324)
北京市科委项目(LJ201607)
+2 种基金
北京市教委科研计划一般项目(KM201710028017)
科技创新服务能力建设-基本科研业务费(科研类)(025185305000)
首都师范大学青年科研创新团队项目。
-
文摘
针对基于深度强化学习的机械臂轨迹规划方法学习效率较低,规划策略鲁棒性差的问题,提出了一种基于语音奖励函数的机械臂轨迹规划方法,利用语音定义规划任务的不同状态,并采用马尔科夫链对状态进行建模,为轨迹规划提供全局指导,降低深度强化学习优化的盲目性。提出的方法结合了基于语音的全局信息和基于相对距离的局部信息来设计奖励函数,在每个状态根据相对距离与语音指导的契合程度对机械臂进行奖励或惩罚。实验证明,设计的奖励函数能够有效地提升基于深度强化学习的机械臂轨迹规划的鲁棒性和收敛速度。
-
关键词
深度强化学习
机械臂
轨迹规划
语音奖励函数
-
Keywords
deep reinforcement learning
robot manipulator
trajectory planning
voicereward function
-
分类号
TP242
[自动化与计算机技术—检测技术与自动化装置]
-
-
题名面向轨迹规划的深度强化学习奖励函数设计
被引量:13
- 2
-
-
作者
李跃
邵振洲
赵振东
施智平
关永
-
机构
首都师范大学信息工程学院
首都师范大学轻型工业机械臂与安全验证北京市重点实验室
首都师范大学成像技术北京市高精尖创新中心
-
出处
《计算机工程与应用》
CSCD
北大核心
2020年第2期226-232,共7页
-
基金
国家自然科学基金(No.61702348,No.61772351,No.61602326,No.61602324)
国家重点研发计划(No.2017YFB1303000,No.2017YFB1302800)
+3 种基金
北京市科委项目(No.LJ201607)
北京市教委科研计划一般项目(No.KM201710028017)
科技创新服务能力建设-基本科研业务费(科研类)(No.025185305000)
首都师范大学青年科研创新团队
-
文摘
现有基于深度强化学习的机械臂轨迹规划方法在未知环境中学习效率偏低,规划策略鲁棒性差。为了解决上述问题,提出了一种基于新型方位奖励函数的机械臂轨迹规划方法A-DPPO,基于相对方向和相对位置设计了一种新型方位奖励函数,通过降低无效探索,提高学习效率。将分布式近似策略优化(DPPO)首次用于机械臂轨迹规划,提高了规划策略的鲁棒性。实验证明相比现有方法,A-DPPO有效地提升了学习效率和规划策略的鲁棒性。
-
关键词
深度强化学习
机械臂
轨迹规划
方位奖励函数
-
Keywords
deep reinforcement learning
robot manipulator
trajectory planning
azimuth reward function
-
分类号
TP242
[自动化与计算机技术—检测技术与自动化装置]
-