-
题名基于深度强化学习的机械臂多模混合控制
- 1
-
-
作者
李家乐
张建锋
李彬
刘天琅
陈检
-
机构
西北农林科技大学信息工程学院
-
出处
《计算机工程与设计》
北大核心
2024年第9期2835-2843,共9页
-
基金
陕西省重点研发计划基金项目(2023-YBNY-212)
陕西省自然科学基金项目(2021JQ-179)。
-
文摘
针对基于深度强化学习控制的机械臂动态避障能力不足,在作业过程中存在多任务冲突问题,提出一种基于双重角色和正则化批评者算法(DARC)的多模混合控制方法。将任务分解为多段避障模式,借助人工势场法的斥力引力思想设计奖励函数并分别进行训练;将经过初步训练的多个模式以距离阈值或奖励积累阈值进行切换控制,消除混合控制存在的冲突;结合机械臂单元运动学特点设计具有软体性质的多连杆机械臂平面仿真模型。实验验证所提方法能够有效提升机械臂动态避障能力,避免多任务间的冲突。
-
关键词
深度强化学习
机械臂
双重演员正则化评论家算法(DARC)
奖励机制
动态避障
优先经验回放机制
连续动作控制
-
Keywords
deep reinforcement learning
manipulator
double actors regularized critics algorithm
reward and punishment mecha-nism
dynamic obstacle avoidance
prioritized experience replay
continuous action control
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名优化深度确定性策略梯度算法
被引量:12
- 2
-
-
作者
柯丰恺
周唯倜
赵大兴
-
机构
湖北工业大学机械工程学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2019年第7期151-156,233,共7页
-
基金
国家自然科学基金(No.51675166)
-
文摘
深度强化学习善于解决控制的优化问题,连续动作的控制因为精度的要求,动作的数量随着动作维度的增加呈指数型增长,难以用离散的动作来表示。基于Actor-Critic框架的深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法虽然解决了连续动作控制问题,但是仍然存在采样方式缺乏科学理论指导、动作维度较高时的最优动作与非最优动作之间差距被忽视等问题。针对上述问题,提出一种基于DDPG算法的优化采样及精确评价的改进算法,并成功应用于选择顺应性装配机器臂(Selective Compliance Assembly Robot Arm,SCARA)的仿真环境中,与原始的DDPG算法对比,取得了良好的效果,实现了SCARA机器人快速自动定位。
-
关键词
强化学习
深度学习
连续动作控制
机器臂
-
Keywords
reinforcement learning
deep learning
continuous action control
robot arm
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
TP241
[自动化与计算机技术—检测技术与自动化装置]
-