-
题名面向轨迹规划的深度强化学习奖励函数设计
被引量:13
- 1
-
-
作者
李跃
邵振洲
赵振东
施智平
关永
-
机构
首都师范大学信息工程学院
首都师范大学轻型工业机械臂与安全验证北京市重点实验室
首都师范大学成像技术北京市高精尖创新中心
-
出处
《计算机工程与应用》
CSCD
北大核心
2020年第2期226-232,共7页
-
基金
国家自然科学基金(No.61702348,No.61772351,No.61602326,No.61602324)
国家重点研发计划(No.2017YFB1303000,No.2017YFB1302800)
+3 种基金
北京市科委项目(No.LJ201607)
北京市教委科研计划一般项目(No.KM201710028017)
科技创新服务能力建设-基本科研业务费(科研类)(No.025185305000)
首都师范大学青年科研创新团队
-
文摘
现有基于深度强化学习的机械臂轨迹规划方法在未知环境中学习效率偏低,规划策略鲁棒性差。为了解决上述问题,提出了一种基于新型方位奖励函数的机械臂轨迹规划方法A-DPPO,基于相对方向和相对位置设计了一种新型方位奖励函数,通过降低无效探索,提高学习效率。将分布式近似策略优化(DPPO)首次用于机械臂轨迹规划,提高了规划策略的鲁棒性。实验证明相比现有方法,A-DPPO有效地提升了学习效率和规划策略的鲁棒性。
-
关键词
深度强化学习
机械臂
轨迹规划
方位奖励函数
-
Keywords
deep reinforcement learning
robot manipulator
trajectory planning
azimuth reward function
-
分类号
TP242
[自动化与计算机技术—检测技术与自动化装置]
-
-
题名基于A-TD3的码垛机器人轨迹规划
- 2
-
-
作者
金桥
杨光锐
王霄
徐凌桦
张芳
-
机构
贵州大学电气工程学院
北京达特集成技术有限责任公司
-
出处
《现代制造工程》
北大核心
2025年第5期42-52,共11页
-
基金
国家自然科学基金资助项目(61861007,61640014)
贵州省科技计划资助项目(黔科合基础-ZK[2021]一般303)
+3 种基金
贵州省科技支撑计划资助项目(黔科合支撑[2022]一般017,黔科合支撑[2022]一般264,黔科合支撑[2023]一般096,黔科合支撑[2023]一般412,黔科合支撑[2023]一般409)
贵州省教育厅创新群体项目(黔教合KY字[2021]012)
中国电力建设股份有限公司科技项目(DJ-ZDXM-2022-44)
贵大引进人才项目(贵大人基合字(2014)08号)。
-
文摘
深度强化学习算法在码垛机器人机械臂轨迹规划的应用中存在学习速率低和鲁棒性差的问题。针对以上问题,提出了一种基于改进方位奖励函数(improved Azimuthal reward function,A)的双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic policy gradient,TD3)算法用于机械臂的轨迹规划。首先,在笛卡尔坐标系下建立码垛机器人的数学模型,并对其进行运动学分析;其次,针对学习速率低和鲁棒性差的问题,基于机械臂和障碍物的相对方向和位置,设计了一种改进方位奖励函数结合双延迟深度确定性策略梯度(A-TD3)算法用于码垛机器人机械臂轨迹规划,以增强机械臂目标搜索的导向性,提高学习效率和鲁棒性。仿真结果表明,相比于改进前TD3算法,A-TD3算法平均收敛速度提升了11.84%,平均奖励值提升了4.64%,平均极差下降了10.30%,在轨迹规划用时上也比主流RRT和GA算法短,验证了A-TD3算法在码垛机器人机械臂轨迹规划应用中的有效性。
-
关键词
机械臂
深度强化学习
改进方位奖励函数
双延迟深度确定性策略梯度
轨迹规划
-
Keywords
robotic arm
deep reinforcement learning
improved Azimuthal reward function(A)
Twin Delayed Deep Deterministic policy gradient(TD3)
trajectory planning
-
分类号
TP249
[自动化与计算机技术—检测技术与自动化装置]
-