逆强化学习算法、理论与应用研究综述被引量：1

A Survey of Inverse Reinforcement Learning Algorithms,Theory and Applications

在线阅读下载PDF

导出

摘要随着高维特征表示与逼近能力的提高,强化学习(Reinforcement learning,RL)在博弈与优化决策、智能驾驶等现实问题中的应用也取得显著进展.然而强化学习在智能体与环境的交互中存在人工设计奖励函数难的问题,因此研究者提出了逆强化学习(Inverse reinforcement learning,IRL)这一研究方向.如何从专家演示中学习奖励函数和进行策略优化是一个重要的研究课题,在人工智能领域具有十分重要的研究意义.本文综合介绍了逆强化学习算法的最新进展,首先介绍了逆强化学习在理论方面的新进展,然后分析了逆强化学习面临的挑战以及未来的发展趋势,最后讨论了逆强化学习的应用进展和应用前景. With the research and development of deep reinforcement learning,the application of reinforcement learning(RL)in real-world problems such as game and optimization decision,and intelligent driving has also made significant progress.However,reinforcement learning has difficulty in manually designing the reward function in the interaction between an agent and its environment,so researchers have proposed the research direction of inverse reinforcement learning(IRL).How to learn reward functions from expert demonstrations and perform strategy optimization is a novel and important research topic with very important research implications in the field of artificial intelligence.This paper presents a comprehensive overview of the recent progress of inverse reinforcement learning algorithms.Firstly,new advances in the theory of inverse reinforcement learning are introduced,then the challenges faced by inverse reinforcement learning and the future development trends are analyzed,and finally the progress and application prospects of inverse reinforcement learning are discussed.

作者宋莉李大字徐昕 SONG Li;LI Da-Zi;XU Xin(College of Information Science and Technology,Beijing University of Chemical Technology,Beijing 100029;College of Intelligence Science and Technology,National University of Defense Technology,Changsha 410073)

机构地区北京化工大学信息科学与技术学院国防科技大学智能科学学院

出处《自动化学报》 EI CAS CSCD 北大核心 2024年第9期1704-1723,共20页 Acta Automatica Sinica

基金国家自然科学基金(62273026)资助。

关键词强化学习逆强化学习线性逆强化学习深度逆强化学习对抗逆强化学习 Reinforcement learning(RL) inverse reinforcement learning(IRL) linear inverse reinforcement learning deep inverse reinforcement learning adversarial inverse reinforcement learning

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

作者简介宋莉,北京化工大学信息科学与技术学院博士研究生.主要研究方向为强化学习,深度学习,逆强化学习.E-mail:slili516@foxmail.com;通信作者:李大字,北京化工大学信息科学与技术学院教授.主要研究方向为机器学习与人工智能,先进控制,分数阶系统,复杂系统建模与优化.E-mail:lidz@mail.buct.edu.cn;徐昕,国防科技大学智能科学学院教授.主要研究方向为智能控制,强化学习,机器学习,机器人和智能车辆.E-mail:xinxu@nudt.edu.cn。

引文网络
相关文献

参考文献6

1柴天佑.工业人工智能发展方向[J].自动化学报,2020,46(10):2005-2012. 被引量：56
2赵冬斌,邵坤,朱圆恒,李栋,陈亚冉,王海涛,刘德荣,周彤,王成红.深度强化学习综述:兼论计算机围棋的发展[J].控制理论与应用,2016,33(6):701-717. 被引量：133
3金卓军,钱徽,陈沈轶,朱淼良.基于回报函数逼近的学徒学习综述[J].华中科技大学学报（自然科学版）,2008,36(S1):288-290. 被引量：2
4高振海,闫相同,高菲.基于逆向强化学习的纵向自动驾驶决策方法[J].汽车工程,2022,44(7):969-975. 被引量：8
5吴少波,傅启明,陈建平,吴宏杰,陆悠.基于相对熵的元逆强化学习方法[J].计算机科学,2021,48(9):257-263. 被引量：4
6陈建平,陈其强,傅启明,高振,吴宏杰,陆悠.基于生成对抗网络的最大熵逆强化学习[J].计算机工程与应用,2019,55(22):119-126. 被引量：3

二级参考文献142

1柴天佑,郑秉霖,胡毅,黄肖玲.制造执行系统的研究现状和发展趋势[J].控制工程,2005,12(6):505-510. 被引量：79
2Ratliff D N,Bagnell J A,Zinkevich M.Maximummargin planning[].Proceedings of the rd Inter-national Conference on Machine Learning.2006
3Ng Y,Russell J S.Algorithms for inverse reinforce-ment learning[].Proceedings of the SeventeenthInternational Conference on Machine Learning.2000
4Abbeel P Y,Ng Y.Apprenticeship learning via in-verse reinforcement learning[].Proceedings of theTwenty-first International Conference on MachineLearning.2004
5Kolter J Z,Abbeel P Y,Ng A.Hierarchical appren-ticeship learning with application to quadruped loco-motion[].Advances in Neural Information Process-ing Systems.2008
6Taskar B,Lacoste-Julien S,Jordan M.Structuredprediction via the extragradient method[].Proceed-ings of Neural Information Processing Systems.2005
7Pieter A,Andrew Y N.Exploration and apprentice-ship learning in reinforcement learning[].Proceed-ings of the nd International Conference on MachineLearning.2005
8Kolter J Z,Rodgers M P,Ng A Y.A complete con-trol architecture for quadruped locomotion over roughterrain[].Proceedings of the International Confer-ence on Robotics and Automation.2008
9Rebula J R,Neuhaus P D,Bonnlander B V,et al.Acontroller for the littledog quadruped walking onrough terrain[].IEEE International Conference onRobotics and Automation.2007
10Ratliff N,Bagnell J A,Srinivasa S.Imitation learn-ing for locomotion and manipulation. CMU-RI-TR-07-45 . 2007

共引文献200

1刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：53
2舒忠.基于深度学习的图像样本标签赋值校正算法实现[J].数字印刷,2019(4):38-45. 被引量：2
3夏艳红.人工智能在自动化控制中的应用分析[J].电子技术（上海）,2021,50(10):156-157. 被引量：3
4Chenwei Tang,Caiyang Yu,Yi Gao,Jianming Chen,Jiaming Yang,Jiuling Lang,Chuan Liu,Ling Zhong,Zhenan He,Jiancheng Lv.Deep Learning in Nuclear Industry:A Survey[J].Big Data Mining and Analytics,2022,5(2):140-160. 被引量：3
5金卓军,钱徽,陈沈轶,朱淼良.回报函数学习的学徒学习综述[J].智能系统学报,2009,4(3):208-212. 被引量：2
6程乐峰,余涛,张孝顺,殷林飞.机器学习在能源与电力系统领域的应用和展望[J].电力系统自动化,2019,43(1):15-31. 被引量：123
7张董,游福成,王惠华,姜超,李明.受限制Boltzmann机深度置信网络与手写数字识别[J].北京印刷学院学报,2016,24(4):56-58. 被引量：4
8侯宇青阳,全吉成,王宏伟.深度学习发展综述[J].舰船电子工程,2017,37(4):5-9. 被引量：40
9王奇,秦进.基于动作空间划分的MAXQ自动分层方法[J].计算机应用,2017,37(5):1357-1362.
10石征锦,王康.深度强化学习在Atari视频游戏上的应用[J].电子世界,2017,0(16):105-106. 被引量：3

同被引文献41

1徐晓晴,朱庆保.动态环境下基于多人工鱼群算法和避碰规则库的机器人路径规划[J].电子学报,2012,40(8):1694-1700. 被引量：37
2倪自强,王田苗,刘达.医疗机器人技术发展综述[J].机械工程学报,2015,51(13):45-52. 被引量：105
3陶飞,刘蔚然,刘检华,刘晓军,刘强,屈挺,胡天亮,张执南,向峰,徐文君,王军强,张映锋,刘振宇,李浩,程江峰,戚庆林,张萌,张贺,隋芳媛,何立荣,易旺民,程辉.数字孪生及其应用探索[J].计算机集成制造系统,2018,24(1):1-18. 被引量：984
4卢万杰,付华,赵洪瑞.基于深度学习算法的矿用巡检机器人设备识别[J].工程设计学报,2019,26(5):527-533. 被引量：30
5郑太雄,黄帅,李永福,冯明驰.基于视觉的三维重建关键技术研究综述[J].自动化学报,2020,46(4):631-652. 被引量：127
6何俊,张彩庆,李小珍,张德海.面向深度学习的多模态融合技术研究综述[J].计算机工程,2020,46(5):1-11. 被引量：71
7卞雪卡.建模与仿真技术的发展及其展望[J].市场周刊,2020(5):173-174. 被引量：2
8刘瑞军,王向上,张晨,章博华.基于深度学习的视觉SLAM综述[J].系统仿真学报,2020,32(7):1244-1256. 被引量：23
9朱小伶.人工智能技术在智能医疗领域的应用综述[J].无人系统技术,2020,3(3):25-31. 被引量：9
10李鸿冰,韩文佳,姜亦飞,赵轩.柔性自供电传感器的研究进展[J].电子元件与材料,2020,39(8):1-12. 被引量：7

引证文献1

1王振保,王子健,徐新喜,刘鑫,程韬,刘培朋,赵秀国,苏琛.急救机器人关键技术及装备发展现状[J].医疗卫生装备,2025,46(3):96-114.

1陈尧.混凝土材料无损检测技术创新应用[J].安家,2024(5):0154-0156.
2于淼.建筑施工企业财务会计与管理会计融合策略探析[J].天津经济,2024(8):69-71. 被引量：1
3冯晨涛.物流企业数字化能力与供应链整合路径研究[J].中国储运,2024(7):157-158.
4项寅.考虑人员配置和工作时长的COVID-19核酸采样点选址[J].运筹与管理,2024,33(7):91-97.
5苏可.财务共享服务在集团企业中的创新与发展[J].投资与创业,2024,35(11):139-141. 被引量：1
6方建胜,张纪元,李大千,贾鑫先,张孝磊.地铁车辆制动系统故障预测与健康管理技术研究[J].电子元器件与信息技术,2024,8(7):169-171.
7刘璐,朱哲远,李颖曦,王颉,彭迪.全球微生物除草剂的研究进展和应用现状[J].农化市场十日讯,2024(9):32-38.
8张荣聚.基于现场总线技术的海上油田能耗数据自动化采集系统设计[J].自动化应用,2024,65(17):213-215.
9王峥.财务管理与成本控制在生产制造企业中的协同作用研究[J].中国集体经济,2024(25):169-172. 被引量：2
10徐萌,罗向阳,王金伟,王昊.彩色图像隐写分析研究进展[J].网络与信息安全学报,2024,10(4):49-62.

自动化学报

2024年第9期

浏览历史

内容加载中请稍等...

逆强化学习算法、理论与应用研究综述被引量：1

参考文献6

二级参考文献142

共引文献200

同被引文献41

引证文献1

相关作者

相关机构

相关主题

浏览历史

逆强化学习算法、理论与应用研究综述 被引量：1

参考文献6

二级参考文献142

共引文献200

同被引文献41

引证文献1

相关作者

相关机构

相关主题

浏览历史

逆强化学习算法、理论与应用研究综述被引量：1