基于LSTM与非对称网络的改进DDPG算法研究被引量：9

Research on improved DDPG algorithm based on LSTM and asymmetric network

在线阅读下载PDF

导出

摘要针对深度强化学习算法在复杂动态环境中训练时,由于环境的部分可观测性原因导致智能体难以获得有用信息而不能学习到良好策略且算法收敛速度慢等典型问题,提出一种基于LSTM和非对称actor-critic网络的改进DDPG算法。该算法在actor-critic网络结构中引入LSTM结构,通过记忆推理来学习部分可观测马尔可夫状态中的隐藏状态,同时在actor网络只使用RGB图像作为部分可观测输入的情况下,critic网络利用仿真环境的完全状态进行训练构成非对称网络,加快了训练收敛速度。通过在ROS中进行机械臂抓取仿真实验,结果显示该算法相比于DDPG、PPO和LSTM-DDPG算法获得了更高的成功率,同时具有较快的收敛速度。 When the deep reinforcement learning algorithm is trained in a complex dynamic environment,it is difficult for the agent to obtain useful information due to the partial observability of the environment,which leads to typical problems such as failure to learn good strategies and slow algorithm convergence speed.This paper proposed an improved DDPG algorithm based on LSTM and asymmetric actor-critic network.This method introduced the LSTM structure into actor-critic network to learn the hidden states in partially observable Markov through memory reasoning.At the same time,when the actor network only used RGB images as partially observable inputs,the critic network used the complete state of the simulation environment to train,which formed an asymmetric network and speeded up the training convergence.The simulation experiment of manipulator grasping in ROS shows that the proposed algorithm has higher success rate and faster convergence speed compared with DDPG,PPO and LSTM-DDPG.

作者何富君王晓争刘凯 He Fujun;Wang Xiaozheng;Liu Kai(School of Mechanical Science&Engineering,Northeast Petroleum University,Daqing Heilongjiang 163318,China)

机构地区东北石油大学机械科学与工程学院

出处《计算机应用研究》 CSCD 北大核心 2022年第1期183-187,共5页 Application Research of Computers

基金国家重点研发计划资助项目(2018YFE0196000) 东北石油大学研究生创新科研资助项目(YJSCX2017-022NEPU)。

关键词深度确定性策略梯度长短期记忆非对称actor-critic 深度强化学习动态环境 DDPG LSTM asymmetric actor-critic deep reinforcement learning dynamic environment

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

作者简介何富君(1970-),男,黑龙江铁力人,教授,博士,主要研究方向为机器人控制技术;通信作者:王晓争(1995-),男,河南许昌人,硕士研究生,主要研究方向为深度强化学习、机器人技术(xiaozhengwang95@163.com);刘凯(1993-),男,河北保定人,助教,硕士,主要研究方向为机器人技术.

引文网络
相关文献

参考文献2

1武曲,张义,郭坤,王玺.结合LSTM的强化学习动态环境路径规划算法[J].小型微型计算机系统,2021,42(2):334-339. 被引量：15
2周友行,赵晗妘,刘汉江,李昱泽,肖雨琴.采用DDPG的双足机器人自学习步态规划方法[J].计算机工程与应用,2021,57(6):254-259. 被引量：9

二级参考文献4

1毛坚桓,殷璐嘉.基于自适应探索改进的深度增强学习算法[J].微电子学与计算机,2016,33(6):139-142. 被引量：2
2王婷婷,丁世飞.基于资格迹的RBF非线性系统强化学习研究[J].小型微型计算机系统,2016,37(7):1508-1512. 被引量：1
3刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：527
4赵玉婷,韩宝玲,罗庆生.基于deep Q-network双足机器人非平整地面行走稳定性控制方法[J].计算机应用,2018,38(9):2459-2463. 被引量：14

共引文献22

1张荣霞,武长旭,孙同超,赵增顺.深度强化学习及在路径规划中的研究进展[J].计算机工程与应用,2021,57(19):44-56. 被引量：36
2侯贤乐,李辉,王壮,吴昭欣,文瀚.基于DDPG算法的导弹末制导律设计[J].战术导弹技术,2021(4):110-116. 被引量：5
3杨雅宁.基于强化学习的中小型无人机动态航线规划算法研究[J].宁夏师范学院学报,2021,42(10):107-112. 被引量：2
4杨周,刘海滨.基于改进蚁群与动态窗口法的AGV动态路径规划[J].计算机工程与应用,2022,58(6):287-295. 被引量：21
5赵国庆,徐君明,刘爱东.降低方差的深度确定性策略梯度算法[J].兵工自动化,2022,41(6):41-46. 被引量：2
6王炜发,张大明,代毅,柯峰,冯穗力.采用Q学习的软件定义网络抗毁技术分析[J].华南理工大学学报（自然科学版）,2022,50(4):65-72. 被引量：3
7李韧,詹明,范晶晶.基于DDPG算法的智能汽车路径规划系统性文献综述[J].汽车知识,2022,22(2):7-10.
8罗洁,王中训,潘康路,卢中原,刘言.基于改进人工势场法的无人车路径规划算法[J].电子设计工程,2022,30(17):90-94. 被引量：20
9鲁嘉俊,杨波,徐婷.一种基于强化学习的绞吸挖泥船施工参数智能自主寻优方法研究[J].中国港湾建设,2022,42(8):71-75. 被引量：2
10高俊晓.智慧校园导向标识机器人步态自动化控制方法[J].自动化与仪器仪表,2022(8):249-252.

同被引文献105

1王华建,李鹏,花国祥.模糊PID在带电作业机器人液压系统中的研究[J].电子测量技术,2023,46(3):32-37. 被引量：7
2王学宁,贺汉根,徐昕.求解部分可观测马氏决策过程的强化学习算法[J].控制与决策,2004,19(11):1263-1266. 被引量：5
3陈昭.时序非平稳性ADF检验法的理论与应用[J].广州大学学报（自然科学版）,2008,7(5):5-10. 被引量：30
4常德雷,郝敬志,郭瑞,刘国秀.配电变压器的异常声音分析与处理[J].电气制造,2014,0(5):70-73. 被引量：3
5陈仁刚,杨荣华,曲文韬,菅有为.一起500kV变压器内部放电故障的检测与分析[J].电气技术,2014,15(12):106-109. 被引量：4
6王欣,吴根勇,潘东浩,应有.基于运行数据的风电机组偏航优化控制方法研究[J].可再生能源,2016,34(3):413-420. 被引量：27
7高春庆,肖明清,孔庆春,胡阳光.突防飞机对敌预警系统随队支援干扰任务分配[J].计算机仿真,2016,33(7):69-72. 被引量：4
8许炳坤.基于聚类算法和风向预测的风机偏航控制优化策略[J].国网技术学院学报,2017,20(1):50-54. 被引量：9
9朱国晖,张瑞,郭嘉.基于SDN控制器的负载均衡策略[J].西安邮电大学学报,2017,22(4):38-42. 被引量：7
10唐汇禹,彭世蕤,孙经蛟,刘香岚.支援干扰掩护下反辐射无人机突防技术[J].现代防御技术,2017,45(5):12-16. 被引量：8

引证文献9

1畅鑫,李艳斌,赵研,杜宇峰,刘东辉.基于MA2IDDPG算法的异构多无人机协同突防方法[J].河北工业科技,2022,39(4):328-334. 被引量：5
2于达,张玮,王辉.基于LSTM神经网络的油浸式变压器异常声纹诊断方法研究[J].智慧电力,2023,51(2):45-52. 被引量：19
3朱国晖,牛皎月,王丹妮.SDN网络中基于深度强化学习的动态路由算法[J].西安邮电大学学报,2022,27(6):1-6. 被引量：6
4吕相霖,臧兆祥,李思博,王俊英.基于注意力的循环PPO算法及其应用[J].计算机技术与发展,2024,34(1):136-142.
5赵季红,宁丽娟,马健,李倩雯.融合网络中基于带宽感知的资源协同调度算法[J].计算机应用研究,2025,42(1):257-261.
6朱丹丹,周前,贾勇勇.多场站协同下基于深度Q网络的配电网电压控制研究[J].自动化与仪器仪表,2025(2):135-139.
7卞睿,刘姝璠,张洪艳,隗晓华,陈艳梅.基于深度学习框架的行为动机分析技术研究[J].信息技术,2025,49(5):89-93.
8吴倩,吴海列,孙勇.基于RF-LightGBM-LSTM的短期风向预测[J].计算机应用与软件,2025,42(5):171-178.
9李佳辉,吴佳龙.基于DDPG算法的220 kV带电作业末端装置自动化控制系统[J].电子设计工程,2025,33(12):52-55.

二级引证文献30

1陆云才,廖才波,李群,王同磊,邵剑,张一.基于声纹特征和集成学习的变压器缺陷诊断方法[J].电力工程技术,2023,42(5):46-55. 被引量：21
2程学珍,庄学山,孟璐莎.基于加权模糊的时序约束Petri网电网故障诊断方法[J].智慧电力,2023,51(11):83-90. 被引量：4
3师亚莉,张润东.车载自组织网络路由协议分析[J].西安邮电大学学报,2023,28(5):9-17. 被引量：2
4王舒玮,薛敏杰.GA-LSTM模型在数控机床故障预测中的应用[J].机床与液压,2023,51(24):197-201. 被引量：3
5童旸,黄文礼,李磊,晏雨晴.基于二维特征提取方法与混合神经网络的接触式采集110 kV三相三绕组变压器无载调压异常放电声纹的识别方法[J].电机与控制应用,2024,51(2):34-43.
6李滢,刘昆,王建中,朱玉瑾,王文凤.基于同态哈希认证的模糊身份多方加密算法[J].电子设计工程,2024,32(6):131-135. 被引量：1
7邹阳,陈啸轩,张云霄,林锦茄,林昕亮.基于界面电荷极化特性的变压器油纸绝缘寿命预测方法研究[J].电力系统保护与控制,2024,52(7):138-148. 被引量：4
8尚海昆,张冉喆,黄涛,林伟,赵子璇.基于CEEMDAN‑TQWT方法的变压器局部放电信号降噪[J].电力科学与技术学报,2024,39(1):272-284. 被引量：2
9罗文萱.基于胶囊神经网络的电力变压器故障诊断方法研究[J].高压电器,2024,60(5):92-98. 被引量：8
10郑海龙,吕桂贤,江覃晴,赵文彬,王斌,楚彭浩,赵慧光.基于信息熵理论对变压器光纤传感器声探测信号的特征提取及识别研究[J].电力系统保护与控制,2024,52(10):156-166. 被引量：4

1高谦,肖维.基于深度学习的液压缸寿命预测方法研究[J].计算机与数字工程,2021,49(1):36-40. 被引量：1
2张星星,刘乐文.基于SSRCKF的纯角度和纯距离跟踪滤波器[J].舰船电子工程,2021,41(7):73-79. 被引量：1
3魏晓晗,张庆,蒋婷婷,梁霖.伺服系统瞬态优化的模糊自适应深度强化学习方法[J].西安交通大学学报,2021,55(8):68-77. 被引量：6
4李洪泽,凌卫青,刘飞翔.面向人机物三元数据的热轧调度问题研究[J].控制与决策,2021,36(11):2825-2832. 被引量：1
5王久健,杨绍普,刘永强,文桂林.一种基于空间卷积长短时记忆神经网络的轴承剩余寿命预测方法[J].机械工程学报,2021,57(21):88-95. 被引量：35

计算机应用研究

2022年第1期

浏览历史

内容加载中请稍等...

基于LSTM与非对称网络的改进DDPG算法研究被引量：9

参考文献2

二级参考文献4

共引文献22

同被引文献105

引证文献9

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

基于LSTM与非对称网络的改进DDPG算法研究 被引量：9

参考文献2

二级参考文献4

共引文献22

同被引文献105

引证文献9

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

基于LSTM与非对称网络的改进DDPG算法研究被引量：9