改进的Q-Learning算法及其在路径规划中的应用被引量：20

An Improved Q-Learning Algorithm and Its Application in Path Planning

在线阅读下载PDF

导出

摘要在传统的Q-学习算法上,提出了一种改进算法ε-Q-Learning,并应用到路径规划中。引入了动态搜索因子,其根据环境的反馈来动态调整贪婪因子ε,如果一次从起点到终点的探索失败,则通过增大ε来使下一次探索的随机性增大,以免陷入局部优化困境;反之,则通过减少ε来增加目的性。本实验利用算法损失函数、运行效率、步数、总回报来评估算法表现。实验表明,ε-Q-Learning算法相比于已有的Q-Learning算法,不仅可以找到更优的路径,而且可以有效地减少迭代搜索的代价。 Traditional Q-Learning algorithm has the problems of too many random searches and slow convergence speed.Therefore,in this paper an improvedε-Q-Learning algorithm based on traditional Q-Learning algorithm was propased and applied to path planning.The key of this method is to introduce the dynamic search factor technology,which adjusts the greedy factor dynamically according to the feedback of the environment.If one exploration from the beginning to the end fails,the randomicity of the next exploration will be increased by increasing greedy factor,in order to avoid falling into the local optimization dilemma.Conversely,purpose will be increased by reducing greedy factor.The performance of the algorithm is evaluated by loss function,running efficiency,number of steps,and total return.Experiments show that compared with the existing Q-Learning algorithm,ε-Q-Learning can not only find a better optimal path,but also significantly reduce the cost of iterative searching.

作者毛国君顾世民 MAO Guojun;GU Shimin(Institute of Machine Learning and Intelligent Science, Fujian Universtiy of Technology, Fuzhou 350118, China)

机构地区福建工程学院机器学习与智能科学研究所

出处《太原理工大学学报》 CAS 北大核心 2021年第1期91-97,共7页 Journal of Taiyuan University of Technology

基金国家自然科学基金资助项目(61773415)。

关键词路径规划人工智能强化学习 Q-LEARNING path planning artificial intelligence reinforcement learning Q-Learning

分类号 TP391 [自动化与计算机技术—计算机应用技术]

作者简介通信作者:毛国君(1966-),博士,教授,主要从事数据挖掘,机器学习及大数据研究,(E-mail)maximmao@hotmail.com。

引文网络
相关文献

参考文献7

1高阳,陈世福,陆鑫.强化学习研究综述[J].自动化学报,2004,30(1):86-100. 被引量：275
2刘忠,李海红,刘全.强化学习算法研究[J].计算机工程与设计,2008,29(22):5805-5809. 被引量：10
3乔俊飞,侯占军,阮晓钢.基于神经网络的强化学习在避障中的应用[J].清华大学学报（自然科学版）,2008,48(S2):1747-1750. 被引量：27
4窦全胜,周春光,徐中宇,潘冠宇.动态优化环境下的群核进化粒子群优化方法[J].计算机研究与发展,2006,43(1):89-95. 被引量：20
5赫东锋,孙树栋.一种在线自学习的移动机器人模糊导航方法[J].西安工业大学学报,2007,27(4):325-329. 被引量：2
6郝钏钏,方舟,李平.基于Q学习的无人机三维航迹规划算法[J].上海交通大学学报,2012,46(12):1931-1935. 被引量：15
7刘智斌,曾晓勤,刘惠义,储荣.基于BP神经网络的双层启发式强化学习方法[J].计算机研究与发展,2015,52(3):579-587. 被引量：39

二级参考文献58

1李伟,何雪松,叶庆泰,朱昌明.基于先验知识的强化学习系统[J].上海交通大学学报,2004,38(8):1362-1365. 被引量：5
2窦全胜,周春光,马铭.粒子群优化的两种改进策略[J].计算机研究与发展,2005,42(5):897-904. 被引量：39
3Tom M Mitchell.Machine learning[M].Beijing, China:Machine Press,2004:263-280.
4Dayan P.The convergence of TD (λ) for general λ[J].Machine Learning, 1992(8):341-362.
5Kaelbling L P, Littman M L,Moore A W.Reinforcement learning: A survey[J].Joumal of Artificial Intelligence Research, 1996(4): 237-285.
6Watins P Dyna. Q_leaming [J]. Machine Learning, 1992,8 (3): 279-292.
7Moor A W, Atkeson C G.Prioritized sweeping: Reinforcement learning with less data and less real time[J].Machine Learning, 1993,13:103-130.
8Hu J, Wellman M ENash Q-learning for general-sum stochastic games [J]. Journal of Machine Learning Research, 2003 (4): 1039-1069.
9Badtke S J,Barto R G.Linear least-squares algorithms for temporal differenee learning [J]. Machine Learning, 1996,22 (1-3): 33-57.
10Bowling M.Convergence and no-regret in multiagent learning [C].Advances in Naural Information Processing Systems,2004.

共引文献375

1朱新乐.基于BP神经网络的绿色供应链优化研究[J].运输经理世界,2023(11):156-158.
2项宇,秦进,袁琳琳.结合向前状态预测和隐空间约束的强化学习表示算法[J].计算机系统应用,2022,31(11):148-156. 被引量：4
3安萌萌,樊秀梅,蔡含宇.基于雾计算和强化学习的交通灯智能协同控制研究[J].计算机应用研究,2020,37(2):465-469. 被引量：8
4丁志梁,潘毅群(指导),谢建彤,王尉同,黄治钟.强化学习算法在空调系统运行优化中的应用研究[J].建筑节能,2020(7):14-20. 被引量：9
5王彦朋,郭佳佳,王晓君.基于Q-Learning的青霉素发酵过程控制方法[J].信息化研究,2023,49(3):31-35.
6马庆刘,喻鹏,吴佳慧,熊翱,颜拥.基于深度强化学习的综合能源业务通道优化机制[J].北京邮电大学学报,2020,43(2):87-93. 被引量：1
7赵元,张合新.基于目标状态距离简化Q-learning算法的迷宫路径规划[J].火箭军工程大学学报,2019(4):79-84.
8杨金鸿,谭斌,皇甫立,熊璋.一种基于联合神经网络的连续空间行动者评论家学习方法[J].智能安全,2022,1(2):19-25.
9周济,陈锋.基于强化神经网络的区域协调控制研究[J].电子技术（上海）,2010(9):20-22.
10卓睿,陈宗海,陈春林.基于强化学习和模糊逻辑的移动机器人导航[J].计算机仿真,2005,22(8):157-162. 被引量：5

同被引文献223

1林依凡,陈彦杰,何炳蔚,黄益斌,王耀南.无碰撞检测RRT^*的移动机器人运动规划方法[J].仪器仪表学报,2020(10):257-267. 被引量：42
2李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：49
3谌海云,陈华胄,刘强.基于改进人工势场法的多无人机三维编队路径规划[J].系统仿真学报,2020,32(3):414-420. 被引量：39
4何健,文晓涛,聂文亮,李雷豪,杨吉鑫.利用随机森林算法预测裂缝发育带[J].石油地球物理勘探,2020,55(1):161-166. 被引量：7
5蔺一帅,李青山,陆鹏浩,孙雨楠,王亮,王颖芝.智能仓储货位规划与AGV路径规划协同优化算法[J].软件学报,2020,31(9):2770-2784. 被引量：29
6赵明,郑泽宇,么庆丰,潘怡君,刘智.基于改进人工势场法的移动机器人路径规划方法[J].计算机应用研究,2020,37(S02):66-68. 被引量：35
7李辉,祁宇明.一种复杂环境下基于深度强化学习的机器人路径规划方法[J].计算机应用研究,2020,37(S01):129-131. 被引量：16
8NAN Rendong.Five hundred meter aperture spherical radio telescope (FAST)[J].Science China(Physics,Mechanics & Astronomy),2006,49(2):129-148. 被引量：84
9杨敏.塔河油田4区岩溶缝洞型碳酸盐岩储层井间连通性研究[J].新疆地质,2004,22(2):196-199. 被引量：40
10陈圣磊,吴慧中,肖亮,朱耀琴.基于Metropolis准则的多步Q学习算法与性能仿真[J].系统仿真学报,2007,19(6):1284-1287. 被引量：7

引证文献20

1邓修朋,崔建明,李敏,张小军,宋戈.深度强化学习在机器人路径规划中的应用[J].电子测量技术,2023,46(6):1-8. 被引量：11
2任维康,田晓丹,卢瑞芳.巡逻机器人关键技术及应用分析[J].现代计算机,2021,27(35):95-104.
3张祥来,江尚容,罗芹.基于改进Q学习算法的“货到人”系统AGV路径规划[J].现代计算机,2022,28(2):62-66. 被引量：1
4王迪,黎冠,李志伟,李明宇,谢家顺.基于改进A*算法的消防机器人路径规划算法研究[J].华北科技学院学报,2022,19(1):72-79. 被引量：4
5陈皓炜,贾新春,孙小明,侯鹏飞.SCR脱硝系统的强化学习复合串级控制[J].动力工程学报,2022,42(5):421-428. 被引量：13
6柯杰龙,张羽,朱朋辉,黄炽坤,吴可廷.基于改进Q⁃learning算法的输电线路拟声驱鸟策略研究[J].南京信息工程大学学报（自然科学版）,2022,14(5):579-586. 被引量：2
7何启嘉,王启明,李佳璇,王正佳,王通.基于优势竞争网络的转运机器人路径规划[J].清华大学学报（自然科学版）,2022,62(11):1751-1757. 被引量：5
8颜伟,孙佳旭,崔若梁.仓库拣选路径问题研究综述[J].科学技术与工程,2022,22(32):14081-14089.
9钱信,吕成伊,宋世杰.基于优化Q-learning算法的机器人路径规划[J].南昌大学学报（工科版）,2022,44(4):396-401. 被引量：3
10张耀玉,李彩虹,张国胜,李永迪,梁振英.基于改进Q-learning算法的移动机器人局部路径规划[J].山东理工大学学报（自然科学版）,2023,37(2):1-6. 被引量：4

二级引证文献61

1姜家国,郭曼利,卢干.基于PLC的选择性催化还原脱硝系统PID控制[J].仪器仪表用户,2022,29(8):97-99. 被引量：1
2曾贺.面向车身数字化工艺开发的多机器人避障算法[J].汽车实用技术,2022,47(17):151-156.
3刘鹏辉,琚贇,高维星,张彦彦.基于强化学习的网络拥塞控制优化算法[J].电力科学与工程,2023,39(4):20-27. 被引量：2
4张涛,陈璋,李玉梅,房萍,鲁娜,巩红雨.融合改进A^(∗)算法与动态窗口法的机器人避障研究[J].仪表技术与传感器,2023(4):102-106. 被引量：8
5王永林,白永峰,孔祥山,郝正,杨彭飞,孔德伟.基于CNN-LSTM算法的脱硝优化控制模型研究[J].综合智慧能源,2023,45(6):25-33. 被引量：8
6卢国强.基于增量Q学习的在线优化控制算法[J].汽车实用技术,2023,48(15):165-171.
7李骁,曹子建,贾浩文,郭瑞麒.一种差分演化Q表的改进Q-Learning方法[J].西安工业大学学报,2023,43(4):369-382. 被引量：1
8许子明,姜浩,赵文杰.基于IHHO-LSTM的SCR脱硝反应器出口NO_(x)浓度预测[J].电力科学与工程,2023,39(8):71-78. 被引量：4
9杨超杰,刘长良,王梓齐,韩超.SCR脱硝系统的改进线性自抗扰优化控制研究[J].动力工程学报,2023,43(7):893-900. 被引量：2
10周维庆,王飞,崔丹,李琛.基于表格记忆式清扫机器人路径规划方法[J].自动化与仪表,2023,38(10):37-41. 被引量：1

1周勐,张波,杨红磊,戚艳,张磐,韦尊.基于终端配置影响关系的可靠率评估算法[J].电测与仪表,2021,58(2):19-24. 被引量：3
2胡继匀,杨镜非,傅长熠.基于两阶段优化模型的电动汽车充电站放电策略[J].智慧电力,2021,49(1):83-89. 被引量：12
3洪畅,胡超,邓超,刘凯.台风期间海上风电场空气密度研究[J].人民长江,2020(S02):290-293. 被引量：1
4马海波,俞力,周新,冯熳.基于Q-learning及其改进算法的信道决策方法[J].现代信息科技,2020,4(20):81-84.
5李昭颖,肖世国.多级悬臂式挡墙支挡路堤边坡整体稳定性分析方法[J].铁道建筑,2020,60(12):92-96. 被引量：10
6聂伟,王斌.轮机模拟器智能评估系统设计[J].军事交通学院学报,2020(10):45-50. 被引量：1

太原理工大学学报

2021年第1期

浏览历史

内容加载中请稍等...

改进的Q-Learning算法及其在路径规划中的应用被引量：20

参考文献7

二级参考文献58

共引文献375

同被引文献223

引证文献20

二级引证文献61

相关作者

相关机构

相关主题

浏览历史

改进的Q-Learning算法及其在路径规划中的应用 被引量：20

参考文献7

二级参考文献58

共引文献375

同被引文献223

引证文献20

二级引证文献61

相关作者

相关机构

相关主题

浏览历史

改进的Q-Learning算法及其在路径规划中的应用被引量：20