深度强化学习算法与应用研究现状综述被引量：57

An overview on algorithms and applications of deep reinforcement learning

在线阅读下载PDF

导出

摘要深度强化学习主要被用来处理感知-决策问题,已经成为人工智能领域重要的研究分支。概述了基于值函数和策略梯度的两类深度强化学习算法,详细阐述了深度Q网络、深度策略梯度及相关改进算法的原理,并综述了深度强化学习在视频游戏、导航、多智能体协作以及推荐系统等领域的应用研究进展。最后,对深度强化学习的算法和应用进行展望,针对一些未来的研究方向和研究热点给出了建议。 Deep reinforcement learning(DRL)is mainly applied to solve the perception-decision problem,and has become an important research branch in the field of artificial intelligence.Two kinds of DRL algorithms based on value function and policy gradient were summarized,including deep Q network,policy gradient as well as related developed algorithms.In addition,the applications of DRL in video games,navigation,multi-agent cooperation and recommendation field were intensively reviewed.Finally,a prospect for the future research of DRL was made,and some research suggestions were given.

作者刘朝阳穆朝絮孙长银 LIU Zhaoyang;MU Chaoxu;SUN Changyin(School of Electrical and Information Engineering,Tianjin University,Tianjin 300072,China;School of Automation,Southeast University,Nanjing 210096,China)

机构地区天津大学电气自动化与信息工程学院东南大学自动化学院

出处《智能科学与技术学报》 2020年第4期314-326,共13页 Chinese Journal of Intelligent Science and Technology

基金国家自然科学基金资助项目(No.61773284)

关键词人工智能深度强化学习值函数策略梯度导航协作复杂环境泛化性鲁棒性 artificial intelligence deep reinforcement learning value function policy gradient navigation cooperation complex environment generalization robustness

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

作者简介刘朝阳(1996−),男,天津大学电气自动化与信息工程学院博士生,主要研究方向为强化学习、多智能体强化学习;通信作者:穆朝絮(1984−),女,博士,天津大学电气自动化与信息工程学院教授,主要研究方向为强化学习、自适应学习系统、非线性控制和优化,cxmu@tju.edu.cn;孙长银(1975−),男,博士,东南大学自动化学院教授,中国自动化学会会士,中国自动化学会人工智能与机器人教育专业委员会主任。主要研究方向为智能控制与优化、强化学习、神经网络、数据驱动控制。担任IEEE Transactions on Neural Networks and Learning Systems、IEEE/CAA Journal of Automatica Sinica、《自动化学报》《控制理论与应用》《智能科学与技术学报》等高质量学术期刊编委。2011年获得国家杰出青年科学基金。“智能机器人感知与控制”江苏高等学校优秀科技创新团队带头人,2016年全国优秀科技工作者,第三批国家“万人计划”科技创新领军人才,中国科学技术协会第九次全国代表大会代表,“自主无人系统协同控制理论及应用”国家自然科学基金委员会创新研究群体学术带头人,科学技术部科技创新2030—“新一代人工智能”重大项目“人在回路的混合增强智能”首席科学家,江苏省前沿引领技术基础研究专项领衔科学家。

引文网络
相关文献

参考文献6

1赵冬斌,邵坤,朱圆恒,李栋,陈亚冉,王海涛,刘德荣,周彤,王成红.深度强化学习综述:兼论计算机围棋的发展[J].控制理论与应用,2016,33(6):701-717. 被引量：134
2万里鹏,兰旭光,张翰博,郑南宁.深度强化学习理论及其应用综述[J].模式识别与人工智能,2019,32(1):67-81. 被引量：74
3刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：516
4刘建伟,高峰,罗雄麟.基于值函数和策略梯度的深度强化学习综述[J].计算机学报,2019,42(6):1406-1438. 被引量：148
5沈宇,韩金朋,李灵犀,王飞跃.游戏智能中的AI——从多角色博弈到平行博弈[J].智能科学与技术学报,2020,2(3):205-213. 被引量：14
6孙长银,穆朝絮.多智能体深度强化学习的若干关键科学问题[J].自动化学报,2020,46(7):1301-1312. 被引量：95

二级参考文献140

1李宪港,李强.典型智能博弈系统技术分析及指控系统智能化发展展望[J].智能科学与技术学报,2020,2(1):36-42. 被引量：24
2LUCAS Simon,沈甜雨,王晓,张杰.基于统计前向规划算法的游戏通用人工智能[J].智能科学与技术学报,2019,1(3):219-227. 被引量：5
3王飞跃.人工社会、计算实验、平行系统——关于复杂社会经济系统计算研究的讨论[J].复杂系统与复杂性科学,2004,1(4):25-35. 被引量：239
4魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
5高阳,周如益,王皓,曹志新.平均奖赏强化学习算法研究[J].计算机学报,2007,30(8):1372-1378. 被引量：38
6MNIH V, KAVUKCUOGLU K, SILVER D, et al. Human-levelcontrol through deep reinforcement learning [J]. Nature, 2015,518(7540): 529 – 533.
7SILVER D, HUANG A, MADDISON C, et al. Mastering the gameof Go with deep neural networks and tree search [J]. Nature, 2016,529(7587): 484 – 489.
8AREL I. Deep reinforcement learning as foundation for artificialgeneral intelligence [M] //Theoretical Foundations of Artificial GeneralIntelligence. Amsterdam: Atlantis Press, 2012: 89 – 102.
9TEAAURO G. TD-Gammon, a self-teaching backgammon program,achieves master-level play [J]. Neural Computation, 1994,6(2): 215 – 219.
10SUTTON R S, BARTO A G. Reinforcement Learning: An Introduction[M]. Cambridge MA: MIT Press, 1998.

共引文献837

1刘莹莹,王占山.异构多智能体系统的输出同步:一个基于数据的强化学习方法[J].智能科学与技术学报,2020,2(4):394-400. 被引量：3
2宿帅,朱擎阳,魏庆来,唐涛,阴佳腾.基于DQN的列车节能驾驶控制方法[J].智能科学与技术学报,2020,2(4):372-384. 被引量：7
3傅汇乔,唐开强,邓归洲,王鑫鹏,陈春林.基于深度强化学习的六足机器人运动规划[J].智能科学与技术学报,2020,2(4):361-371. 被引量：3
4李涛,魏庆来.基于深度强化学习的智能暖气温度控制系统[J].智能科学与技术学报,2020,2(4):348-353. 被引量：4
5韩志豪,汪益兵,张宇,郝永志.基于深度强化学习的船舶航线自动规划[J].中国航海,2021,44(1):100-105. 被引量：10
6周宏宇,王小刚,赵亚丽,崔乃刚.组合动力运载器上升段轨迹智能优化方法[J].宇航学报,2020,41(1):61-70. 被引量：11
7张磊,母亚双,潘泉.基于改进深度双Q网络的移动机器人路径规划算法[J].信息与控制,2024,53(3):365-376. 被引量：2
8李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：55
9舒忠.基于深度学习的图像样本标签赋值校正算法实现[J].数字印刷,2019(4):38-45. 被引量：2
10钟玮琦,喻仁虹,李明柱.基于DDPG算法的供热末端运行策略研究[J].暖通空调,2022,52(S02):170-174. 被引量：1

同被引文献463

1刘莹莹,王占山.异构多智能体系统的输出同步:一个基于数据的强化学习方法[J].智能科学与技术学报,2020,2(4):394-400. 被引量：3
2王飞跃,曹东璞,魏庆来.强化学习:迈向知行合一的智能机制与算法[J].智能科学与技术学报,2020,2(2):101-106. 被引量：13
3LUCAS Simon,沈甜雨,王晓,张杰.基于统计前向规划算法的游戏通用人工智能[J].智能科学与技术学报,2019,1(3):219-227. 被引量：5
4韩志豪,汪益兵,张宇,郝永志.基于深度强化学习的船舶航线自动规划[J].中国航海,2021,44(1):100-105. 被引量：10
5康守强,刘哲,王玉静,王庆岩,兰朝凤.基于改进DQN网络的滚动轴承故障诊断方法[J].仪器仪表学报,2021,42(3):201-212. 被引量：28
6张淑清,苑世钰,姚玉永,穆勇,王丽丽.基于ICEEMD及AWOA优化ELM的机械故障诊断方法[J].仪器仪表学报,2019,40(11):172-180. 被引量：29
7李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：55
8赵恒军,李权忠,曾霞,刘志明.安全强化学习算法及其在CPS智能控制中的应用[J].软件学报,2022,33(7):2538-2561. 被引量：5
9蔺一帅,李青山,陆鹏浩,孙雨楠,王亮,王颖芝.智能仓储货位规划与AGV路径规划协同优化算法[J].软件学报,2020,31(9):2770-2784. 被引量：31
10冯兆祎,章传芳,王帆,张晓丹.S/C/X多频段共口径相控阵天线的研究[J].微波学报,2020,36(S01):98-101. 被引量：5

引证文献57

1陈潜,陆满君,宋柯,于祥祯,杜科.相控阵雷达导引头技术现状及发展趋势[J].上海航天（中英文）,2021,38(3):157-162. 被引量：14
2王金予,魏欣然,石文磊,张佳.强化学习在资源优化领域的应用[J].大数据,2021,7(5):131-149. 被引量：3
3张荣霞,武长旭,孙同超,赵增顺.深度强化学习及在路径规划中的研究进展[J].计算机工程与应用,2021,57(19):44-56. 被引量：34
4喻波,王志海,孙亚东,谢福进,安鹏.非结构化文档敏感数据识别与异常行为分析[J].智能系统学报,2021,16(5):931-939. 被引量：14
5郭心德,丁宏强.离散制造智能工厂场景的AGV路径规划方法[J].广东工业大学学报,2021,38(6):70-76. 被引量：5
6邓清唐,胡丹尔,蔡田田,李肖博,徐贤民,彭勇刚.基于多智能体深度强化学习的配电网无功优化策略[J].电工电能新技术,2022,41(2):10-20. 被引量：20
7徐国奇,洪昭斌,陈水宣,郭炳廷.采用DDPG算法的弹道导弹突防诱饵分布空域[J].厦门理工学院学报,2022,30(1):34-41. 被引量：1
8王涵,俞扬,姜远.基于动态自选择参数共享的合作多智能体强化学习算法[J].智能科学与技术学报,2022,4(1):75-83. 被引量：1
9项羽铭,陈焜,赵志峰,李荣鹏,张宏纲.脑注意力机制启发的群体智能协同避障方法[J].智能科学与技术学报,2022,4(1):84-96.
10孙立钧,顾雪平,刘彤,王铁强,杨晓东.一种基于深度强化学习算法的电网有功安全校正方法[J].电力系统保护与控制,2022,50(10):114-122. 被引量：19

二级引证文献245

1邓修朋,崔建明,李敏,张小军,宋戈.深度强化学习在机器人路径规划中的应用[J].电子测量技术,2023,46(6):1-8. 被引量：13
2楼伟,陈曦晖,赵伟恒.基于改进谱峭度图与多维融合CNN的轴承故障诊断方法[J].电子测量技术,2023,46(5):185-191. 被引量：2
3任志文,卢杰,赵胜海,王天绥,周俊伟.捕鲸叉导弹动力装置研制路线解析[J].飞航导弹,2021(9):67-72.
4段洁利,王昭锐,叶磊,杨洲.水果采摘机械臂运动规划研究进展与发展趋势[J].智能化农业装备学报（中英文）,2021,2(2):7-17. 被引量：9
5赵慧玲,王鼎,任进.一类非仿射系统的执行依赖启发式在线跟踪控制[J].智能科学与技术学报,2021,3(4):449-455.
6尹毅.船舶动力装置智能故障诊断技术的运用[J].船舶物资与市场,2022,30(1):25-27. 被引量：2
7王涵,俞扬,姜远.基于动态自选择参数共享的合作多智能体强化学习算法[J].智能科学与技术学报,2022,4(1):75-83. 被引量：1
8贺雪梅,匡胤,杨志鹏,杨亚乔.基于深度强化学习的AGV智能导航系统设计[J].计算机应用研究,2022,39(5):1501-1504. 被引量：10
9赵国庆,徐君明,刘爱东.降低方差的深度确定性策略梯度算法[J].兵工自动化,2022,41(6):41-46. 被引量：2
10张朝丰,李少杰,张双喜,孟涛,梅少辉.机载火控雷达抗干扰仿真系统设计[J].上海航天（中英文）,2022,39(3):100-106. 被引量：4

1Chad Bouton,Nathaniel Welch(摄影).旁路技术解决瘫痪问题[J].科技纵览,2021(2):26-31.

智能科学与技术学报

2020年第4期

浏览历史

内容加载中请稍等...

深度强化学习算法与应用研究现状综述被引量：57

参考文献6

二级参考文献140

共引文献837

同被引文献463

引证文献57

二级引证文献245

相关作者

相关机构

相关主题

浏览历史

深度强化学习算法与应用研究现状综述 被引量：57

参考文献6

二级参考文献140

共引文献837

同被引文献463

引证文献57

二级引证文献245

相关作者

相关机构

相关主题

浏览历史

深度强化学习算法与应用研究现状综述被引量：57