基于深度强化学习的二连杆机械臂运动控制方法被引量：21

Motion control method of two-link manipulator based on deep reinforcement learning

在线阅读下载PDF

导出

摘要针对二连杆机械臂的运动控制问题,提出了一种基于深度强化学习的控制方法。首先,搭建机械臂仿真环境,包括二连杆机械臂、目标物与障碍物;然后,根据环境模型的目标设置、状态变量和奖罚机制来建立三种深度强化学习模型进行训练,最后实现二连杆机械臂的运动控制。对比分析所提出的三种模型后,选择深度确定性策略梯度(DDPG)算法进行进一步研究来改进其适用性,从而缩短机械臂模型的调试时间,顺利避开障碍物到达目标。实验结果表明,所提深度强化学习方法能够有效控制二连杆机械臂的运动,改进后的DDPG算法控制模型的收敛速度提升了两倍并且收敛后的稳定性增强。相较于传统控制方法,所提深度强化学习控制方法效率更高,适用性更强。 Aiming at the motion control problem of two-link manipulator,a new control method based on deep reinforcement learning was proposed.Firstly,the simulation environment of manipulator was built,which includes the two-link manipulator,target and obstacle.Then,according to the target setting,state variables as well as reward and punishment mechanism of the environment model,three kinds of deep reinforcement learning models were established for training.Finally,the motion control of the two-link manipulator was realized.After comparing and analyzing the three proposed models,Deep Deterministic Policy Gradient(DDPG)algorithm was selected for further research to improve its applicability,so as to shorten the debugging time of the manipulator model,and avoided the obstacle to reach the target smoothly.Experimental results show that,the proposed deep reinforcement learning method can effectively control the motion of two-link manipulator,the improved DDPG algorithm control model has the convergence speed increased by two times and the stability after convergence enhances.Compared with the traditional control method,the proposed deep reinforcement learning control method has higher efficiency and stronger applicability.

作者王建平王刚毛晓彬马恩琪 WANG Jianping;WANG Gang;MAO Xiaobin;MA Enqi(School of Mechanical and Precision Instrument Engineering,Xi’an University of Technology,Xi’an Shaanxi 710048,China)

机构地区西安理工大学机械与精密仪器工程学院

出处《计算机应用》 CSCD 北大核心 2021年第6期1799-1804,共6页 journal of Computer Applications

关键词深度强化学习二连杆机械臂运动控制奖罚机制深度确定性策略梯度算法 deep reinforcement learning two-link manipulator motion control reward and punishment mechanism Deep Deterministic Policy Gradient(DDPG)algorithm

分类号 TP241.2 [自动化与计算机技术—检测技术与自动化装置] TP391.9 [自动化与计算机技术—计算机应用技术]

作者简介王建平(1970-),男,山西代县人,副教授,博士,主要研究方向:非线性系统动力学、智能控制;通信作者:王刚(1996-),男,陕西宝鸡人,硕士研究生,主要研究方向:智能控制、深度强化学习,电子邮箱:1123016209@qq.com;毛晓彬(1998-),男,山西临汾人,硕士研究生,主要研究方向:智能控制;马恩琪(1998-),男,陕西渭南人,硕士研究生,主要研究方向:智能控制。

引文网络
相关文献

参考文献3

1李铭浩,张华,刘满禄,李新茂,周祺杰.基于深度强化学习的机械臂容错控制方法[J].传感器与微系统,2020,39(1):53-55. 被引量：9
2刘成亮,戈新生.一类二连杆欠驱动机器人系统的稳定控制[J].北京信息科技大学学报（自然科学版）,2017,32(3):25-29. 被引量：3
3万仁卓,王思源,冯绎铭,桂熙,丁雷,王骏,周国鹏.基于二连杆任务的深度强化学习算法分析与比较[J].湖北科技学院学报,2019,39(3):151-156. 被引量：3

二级参考文献9

1姜文超,王准,戈新生.欠驱动Furuta摆的摇起与平衡控制[J].北京机械工业学院学报,2007,22(3):1-4. 被引量：1
2刘金亨,陈今润,吕郁青,杨清丽.基于LQR的一阶直线双倒立摆最优控制系统研究[J].自动化技术与应用,2009(5):11-13. 被引量：12
3傅雪冬,裴海龙,吴国钊.Pendubot的基于能量的非线性控制[J].机器人,2000,22(6):451-456. 被引量：10
4赖旭芝,蔡自兴,吴敏.一类欠驱动机械系统的模糊与变结构控制[J].自动化学报,2001,27(6):850-854. 被引量：22
5侯鹏,周国鹏,万仁卓,周芳,周智.基于ANSYS的永磁同步电机的设计与仿真[J].湖北科技学院学报,2017,37(6):146-150. 被引量：6
6刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：527
7李铭浩,敖天翔,刘满禄,张华.串联机械臂关节故障快速判定方法研究[J].传感器与微系统,2018,37(6):22-25. 被引量：3
8唐振韬,邵坤,赵冬斌,朱圆恒.深度强化学习进展:从AlphaGo到AlphaGo Zero[J].控制理论与应用,2017,34(12):1529-1546. 被引量：105
9杜志江,王伟,闫志远,董为,王伟东.基于模糊强化学习的微创外科手术机械臂人机交互方法[J].机器人,2017,39(3):363-370. 被引量：18

共引文献12

1赵晨,戈新生.基于虚拟完整约束的欠驱动球摆系统稳定性控制[J].北京信息科技大学学报（自然科学版）,2019,34(4):36-40.
2于航.基于MATLAB的三连杆PID轨迹跟踪及Simulink仿真[J].电子设计工程,2019,27(21):97-101. 被引量：3
3陈奎烨,葛群峰,高兴波,陈路.针对二连杆机械臂控制的DDPG算法研究[J].无线通信技术,2021,30(3):17-22. 被引量：2
4张美蓉,镐梦婷,王闯,张更新.高低轨卫星异构网络资源管控策略与技术研究[J].天地一体化信息网络,2021,2(4):66-74. 被引量：7
5薛智慧,刘金国.空间机械臂操控技术研究综述[J].机器人,2022,44(1):107-128. 被引量：34
6杨朋举,刘烨,黄小刚,王承茂.含未知磁滞输入的机械臂系统预设性能控制[J].仪表技术与传感器,2023(1):96-101. 被引量：2
7苏杰,刘光宇,暨仲明,黄雨梦.改进DDPG算法在外骨骼机械臂轨迹运动中的应用[J].传感器与微系统,2023,42(2):149-152. 被引量：8
8孙英博,苗国英,庄亚楠.基于改进的深度强化学习多智能体协作方法[J].传感器与微系统,2023,42(9):25-29. 被引量：6
9朱继伟,张隆源,王冀,罗佳宁,李伟.基于DRL和轨迹优化的多机器人导航和编队维护[J].传感器与微系统,2023,42(9):129-132. 被引量：1
10付一豪,鲍泓,梁天骄,付东普,潘峰.基于视觉DQN的无人车换道决策算法研究[J].传感器与微系统,2023,42(10):52-55. 被引量：5

同被引文献192

1杨达,吕蒙,戴力源,王啸文,郭茜.车联网环境下自动驾驶车辆车道选择决策模型[J].中国公路学报,2022,35(4):243-255. 被引量：18
2丁力,姚勇,巢渊,王尧尧,吴洪涛.面向水质采样的绳驱动空中机械臂抗干扰控制[J].农业机械学报,2022,53(8):452-458. 被引量：7
3黄自鑫,赖旭芝,王亚午,吴敏.基于轨迹规划的平面三连杆欠驱动机械臂位置控制[J].控制与决策,2020,35(2):382-388. 被引量：26
4徐晓慧,张金龙.代价函数引导的机械臂运动规划算法[J].机械科学与技术,2020,0(1):62-67. 被引量：7
5刘洋,李建军.深度确定性策略梯度算法优化[J].辽宁工程技术大学学报（自然科学版）,2020(6):545-549. 被引量：2
6吴鹏松,吴朝野,周东华.大纯滞后信号解耦内模控制系统研究[J].化工自动化及仪表,2012,39(9):1115-1117. 被引量：1
7叶凌箭,程江华.基于Matlab/Simulink的青霉素发酵过程仿真平台[J].系统仿真学报,2015,27(3):515-520. 被引量：4
8胡海燕,王鹏飞,孙立宁,赵勃,李满天.线驱动连续型机器人的运动学分析与仿真[J].机械工程学报,2010,46(19):1-8. 被引量：67
9李二超,李战明,李炜.基于Matlab/Simulink机器人力控制系统仿真研究[J].机床与液压,2011,39(9):108-110. 被引量：5
10于志刚,沈永良,宋中民.机械臂鲁棒自适应运动控制[J].控制理论与应用,2011,28(7):1021-1024. 被引量：21

引证文献21

1钟辉,袁邦颐,丁度坤,辛曼玉,邓建新,黄秋林.基于模型补偿的机械臂位置跟踪控制研究[J].装备制造技术,2022(9):24-28.
2LIN Xiangyang,XING Qinghua,LIU Fuxian.Choice of discount rate in reinforcement learning with long-delay rewards[J].Journal of Systems Engineering and Electronics,2022,33(2):381-392. 被引量：1
3邓绍斌,朱军,周晓锋,李帅,刘舒锐.基于局部策略交互探索的深度确定性策略梯度的工业过程控制方法[J].计算机应用,2022,42(5):1642-1648. 被引量：1
4唐超,张帆,王文龙,李徐.基于深度强化学习的蛇形机械臂控制策略研究[J].农业装备与车辆工程,2022,60(8):17-21. 被引量：2
5范振,陈乃建,董春超,张来伟,包佳伟,李亚辉,李映君.基于深度强化学习的单臂机器人末端姿态控制[J].济南大学学报（自然科学版）,2022,36(5):616-625. 被引量：8
6陈运胜,孙令真,张创基.基于积分分离式PID的三连杆机械臂传动控制方法[J].机械与电子,2022,40(12):59-62. 被引量：3
7刘小英,刘志勇,崔慧娟.基于动态规划算法的液压驱动机械臂运动控制研究[J].液压气动与密封,2023,43(1):15-18. 被引量：5
8黄晓辉,杨凯铭,凌嘉壕.基于共享注意力的多智能体强化学习订单派送[J].计算机应用,2023,43(5):1620-1624. 被引量：1
9傅卫沁,刘彬,徐长瑜.基于多传感器的工业机械臂精细化操作远程控制方法[J].机械与电子,2023,41(5):62-66. 被引量：3
10韩明刚,党世红.基于PLC技术的重载混联式液压机械臂运动优化控制方法研究[J].液压气动与密封,2023,43(10):55-58. 被引量：5

二级引证文献42

1马宏伟,孙思雅,王川伟,毛清华,薛旭升,王鹏,夏晶,贾泽林,郭逸风,崔闻达.多机械臂多钻机协作的煤矿巷道钻锚机器人关键技术[J].煤炭学报,2023,48(1):497-509. 被引量：19
2张利.机械臂电气驱动和控制系统设计[J].装备制造技术,2023(4):130-133. 被引量：1
3蔺向阳,邢清华,邢怀玺.基于MADDPG的无人机群空中拦截作战决策研究[J].计算机科学,2023,50(S01):88-94. 被引量：3
4和红波.轻质液压机械臂的机构优化探讨[J].五金科技,2023,51(5):73-76.
5何强鉴,赵刚,水星,许款款,侯丰.基于GA-SVM优化算法的扒渣机器人逆运动学求解研究[J].工业仪表与自动化装置,2023(6):64-69.
6林厚健,蔡子颖,王小增,黄凯升,马展鹏.基于STM32的柑橘采摘机器人[J].嘉应学院学报,2023,41(6):7-13.
7赵向杰,尹培丽.薄膜复合粘接工艺的PID控制优化分析[J].粘接,2024,51(2):9-12.
8安城安,周思达.基于改进多智能体PPO的多无人机协同探索方法[J].电光与控制,2024,31(1):51-56. 被引量：2
9冯婧,莫谋艺,靳瑜,陈思伟,黄志维.多功能小型六轴机械臂的设计与制作[J].机电工程技术,2024,53(4):50-53.
10李艳红.基于人工智能技术的机器人运动控制系统设计[J].现代电子技术,2024,47(10):117-122. 被引量：5

1朱龙军.建筑土建施工中质量控制的措施研究[J].安防科技,2020(15):99-99.
2徐泽洲,曲大义,洪家乐,宋晓晨.智能网联汽车自动驾驶行为决策方法研究[J].复杂系统与复杂性科学,2021,18(3):88-94. 被引量：12
3常学辉,张良芝,崔应麟,朱光,周云洁,杜凤丽,丁虹.“双一流”建设背景下高等医学院校临床师资队伍建设初探[J].中医药管理杂志,2021,29(5):22-24. 被引量：6
4何准,董文瀚,蔡鸣,李大东.基于DDPG的多旋翼无人机自主引导与跟踪方法[J].飞行力学,2021,39(2):63-69. 被引量：6
5杨尚彤,王子磊.联合随机性策略的深度强化学习探索方法[J].信息技术与网络安全,2021,40(6):43-49.
6高昂,董志明,叶红兵,宋敬华,郭齐胜.基于深度强化学习的巡飞弹突防控制决策[J].兵工学报,2021,42(5):1101-1110. 被引量：20
7宋宏川,詹浩,夏露,李向阳,刘艳.基于深度确定性策略梯度算法的战机规避中距空空导弹研究[J].航空工程进展,2021,12(3):85-94. 被引量：4
8高茂源,王好臣.基于改进蚁群算法的移动机器人路径规划[J].传感器与微系统,2021,40(6):142-144. 被引量：21
9谢志平,张旭丰.基于标准化设计的继电保护回路自动审查技术的研究与应用[J].电气时代,2021(6):39-42. 被引量：3

计算机应用

2021年第6期

浏览历史

内容加载中请稍等...

基于深度强化学习的二连杆机械臂运动控制方法被引量：21

参考文献3

二级参考文献9

共引文献12

同被引文献192

引证文献21

二级引证文献42

相关作者

相关机构

相关主题

浏览历史

基于深度强化学习的二连杆机械臂运动控制方法 被引量：21

参考文献3

二级参考文献9

共引文献12

同被引文献192

引证文献21

二级引证文献42

相关作者

相关机构

相关主题

浏览历史

基于深度强化学习的二连杆机械臂运动控制方法被引量：21