期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
面向轨迹规划的深度强化学习奖励函数设计 被引量:13
1
作者 李跃 邵振洲 +2 位作者 赵振东 施智平 关永 《计算机工程与应用》 CSCD 北大核心 2020年第2期226-232,共7页
现有基于深度强化学习的机械臂轨迹规划方法在未知环境中学习效率偏低,规划策略鲁棒性差。为了解决上述问题,提出了一种基于新型方位奖励函数的机械臂轨迹规划方法A-DPPO,基于相对方向和相对位置设计了一种新型方位奖励函数,通过降低无... 现有基于深度强化学习的机械臂轨迹规划方法在未知环境中学习效率偏低,规划策略鲁棒性差。为了解决上述问题,提出了一种基于新型方位奖励函数的机械臂轨迹规划方法A-DPPO,基于相对方向和相对位置设计了一种新型方位奖励函数,通过降低无效探索,提高学习效率。将分布式近似策略优化(DPPO)首次用于机械臂轨迹规划,提高了规划策略的鲁棒性。实验证明相比现有方法,A-DPPO有效地提升了学习效率和规划策略的鲁棒性。 展开更多
关键词 深度强化学习 机械臂 轨迹规划 方位奖励函数
在线阅读 下载PDF
基于A-TD3的码垛机器人轨迹规划
2
作者 金桥 杨光锐 +2 位作者 王霄 徐凌桦 张芳 《现代制造工程》 北大核心 2025年第5期42-52,共11页
深度强化学习算法在码垛机器人机械臂轨迹规划的应用中存在学习速率低和鲁棒性差的问题。针对以上问题,提出了一种基于改进方位奖励函数(improved Azimuthal reward function,A)的双延迟深度确定性策略梯度(Twin Delayed Deep Determini... 深度强化学习算法在码垛机器人机械臂轨迹规划的应用中存在学习速率低和鲁棒性差的问题。针对以上问题,提出了一种基于改进方位奖励函数(improved Azimuthal reward function,A)的双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic policy gradient,TD3)算法用于机械臂的轨迹规划。首先,在笛卡尔坐标系下建立码垛机器人的数学模型,并对其进行运动学分析;其次,针对学习速率低和鲁棒性差的问题,基于机械臂和障碍物的相对方向和位置,设计了一种改进方位奖励函数结合双延迟深度确定性策略梯度(A-TD3)算法用于码垛机器人机械臂轨迹规划,以增强机械臂目标搜索的导向性,提高学习效率和鲁棒性。仿真结果表明,相比于改进前TD3算法,A-TD3算法平均收敛速度提升了11.84%,平均奖励值提升了4.64%,平均极差下降了10.30%,在轨迹规划用时上也比主流RRT和GA算法短,验证了A-TD3算法在码垛机器人机械臂轨迹规划应用中的有效性。 展开更多
关键词 机械臂 深度强化学习 改进方位奖励函数 双延迟深度确定性策略梯度 轨迹规划
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部