期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于深度强化学习的机械臂多模混合控制
1
作者 李家乐 张建锋 +2 位作者 李彬 刘天琅 陈检 《计算机工程与设计》 北大核心 2024年第9期2835-2843,共9页
针对基于深度强化学习控制的机械臂动态避障能力不足,在作业过程中存在多任务冲突问题,提出一种基于双重角色和正则化批评者算法(DARC)的多模混合控制方法。将任务分解为多段避障模式,借助人工势场法的斥力引力思想设计奖励函数并分别... 针对基于深度强化学习控制的机械臂动态避障能力不足,在作业过程中存在多任务冲突问题,提出一种基于双重角色和正则化批评者算法(DARC)的多模混合控制方法。将任务分解为多段避障模式,借助人工势场法的斥力引力思想设计奖励函数并分别进行训练;将经过初步训练的多个模式以距离阈值或奖励积累阈值进行切换控制,消除混合控制存在的冲突;结合机械臂单元运动学特点设计具有软体性质的多连杆机械臂平面仿真模型。实验验证所提方法能够有效提升机械臂动态避障能力,避免多任务间的冲突。 展开更多
关键词 深度强化学习 机械臂 双重演员正则化评论家算法(DARC) 奖励机制 动态避障 优先经验回放机制 连续动作控制
在线阅读 下载PDF
优化深度确定性策略梯度算法 被引量:12
2
作者 柯丰恺 周唯倜 赵大兴 《计算机工程与应用》 CSCD 北大核心 2019年第7期151-156,233,共7页
深度强化学习善于解决控制的优化问题,连续动作的控制因为精度的要求,动作的数量随着动作维度的增加呈指数型增长,难以用离散的动作来表示。基于Actor-Critic框架的深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法虽... 深度强化学习善于解决控制的优化问题,连续动作的控制因为精度的要求,动作的数量随着动作维度的增加呈指数型增长,难以用离散的动作来表示。基于Actor-Critic框架的深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法虽然解决了连续动作控制问题,但是仍然存在采样方式缺乏科学理论指导、动作维度较高时的最优动作与非最优动作之间差距被忽视等问题。针对上述问题,提出一种基于DDPG算法的优化采样及精确评价的改进算法,并成功应用于选择顺应性装配机器臂(Selective Compliance Assembly Robot Arm,SCARA)的仿真环境中,与原始的DDPG算法对比,取得了良好的效果,实现了SCARA机器人快速自动定位。 展开更多
关键词 强化学习 深度学习 连续动作控制 机器臂
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部