基于经验知识的Q-学习算法被引量：7

Q-Learning based on the Experience knowledge

在线阅读下载PDF

导出

摘要为了提高智能体系统中的典型的强化学习——Q-学习的学习速度和收敛速度,使学习过程充分利用环境信息,本文提出了一种基于经验知识的Q-学习算法。该算法利用具有经验知识信息的函数,使智能体在进行无模型学习的同时学习系统模型,避免对环境模型的重复学习,从而加速智能体的学习速度。仿真实验结果表明:该算法使学习过程建立在较好的学习基础上,从而更快地趋近于最优状态,其学习效率和收敛速度明显优于标准的Q-学习。 In order to enhance the study speed and the convergence rate of Q-learning algorithm, an algorithm that based on the experience knowledge about environment is proposed. Based on the experienced information function, the agent can learn the system model and avoid the repeated learning. Compared with the standard Q-leaming, the results showed that the proposed algorithm has faster speed to converge and better performance.

作者宋清昆胡子婴

机构地区哈尔滨理工大学自动化学院

出处《自动化技术与应用》 2006年第11期10-12,共3页 Techniques of Automation and Applications

关键词强化学习 Q-学习算法智能体经验知识 reinforcement leaming Q-learning： agent： exoerience knowledge

分类号 TP273.22 [自动化与计算机技术—检测技术与自动化装置]

作者简介宋清昆（1964-），男，教授，研究生导师，研究方向：人工智能。

引文网络
相关文献

参考文献5

1唐文彬,朱淼良.基于强化学习的多Agent系统[J].计算机科学,2003,30(4):16-18. 被引量：7
2张淑军,孟庆春,宋长虹,张艳,张文.多智能体系统混合智能学习算法研究[J].哈尔滨工业大学学报,2003,35(9):1083-1085. 被引量：5
3MitchellTM著曾华军张银奎译.机器学习[M].北京:机械工业出版社,2003..
4张汝波.提高强化学习速度的方法研究[J].计算机工程与应用,2001,37(22):38-40. 被引量：8
5C.J.C.H.WATKINS,"Learning from delayed rewards"[D],PhD Thesis of the King's College,University of Cambridge,England,1989.

二级参考文献20

1庄晓东,孟庆春,魏天滨,王旭柱,谭锐,李筱菁.Robot path planning in dynamic environment based on reinforcement learning[J].Journal of Harbin Institute of Technology(New Series),2001,8(3):253-255. 被引量：3
2Watkins C J C H. Learning from Delayed Rewards:[Ph.D.thesis]. Cambridge University, 1989.
3Watkins C J C H. Dayan P. Technical not:Q-learning. Machine Learning, 1992,8:279~292.
4Ohashi T ,et al. State transition rate based reinforcement learning Systems, Man, and Cybernetics. In: 2000 IEEE Intl. Cord.Volume: 1, 2000. 236~241.
5Yamagnchi T,et al. Propagating learned behaviors from a virtual agent to a physical robot in reinforcement learnins, In..Proe. IEEE Int. Conf. on Evolutionary Computation, 1996. 855~859.
6Yamagnchi T,et al. Reinforcement learning for a real robot in a real environment. In: European Conf. on Artificial Intelligence,Aug. 1996. 694~698.
7Hailu G. Sommer G. Embedding knowledge in reinforcement·learning. In: Proc. 8^th Int. Conf. on Artificial Neural Networks.Sep. 1998. 1133~1138.
8Huber M. A hybrid architecture for hierarchical reinforcement learning. In: Proc. IEEE Int. Conf. on Robotics & Automation,April 2000. 3290~3295.
9Peng J, Bhanu B. Closed loop object recognition using reinforcement learning. IEEE Trans. on Pattern Analysis and Machine Intelligence, 1998,20(2) : 139~154.
10Schwartz J T,Shirir M. A survey of motion planning and related geometric algorithm. Artif. Intell. J. , 1988,37 : 157~169.

共引文献56

1郭晓军,杨建军,李红卫.Agent仿真中具有先验知识的混合学习算法与混合结构模型[J].海军航空工程学院学报,2007,22(2):247-251.
2张峡,黄团华,赵晓岩.基于遗传算法进行加速器自动调束[J].强激光与粒子束,2004,16(9):1222-1224. 被引量：4
3张辉,张浩,徐征,陆剑峰.基于支持向量机的供应链伙伴企业选择方法的研究[J].计算机集成制造系统,2004,10(7):796-800. 被引量：10
4余芳,姜云飞.一种基于朴素贝叶斯分类的特征选择方法[J].中山大学学报（自然科学版）,2004,43(5):118-120. 被引量：24
5孙微微,刘才兴,田绪红.训练集容量对决策树分类错误率的影响研究[J].计算机工程与应用,2005,41(10):159-161. 被引量：6
6巨同升.机器学习在汉字智能拼音输入中的应用[J].山东理工大学学报（自然科学版）,2005,19(3):86-88. 被引量：1
7杨金辉,易中华,王煦法.一种基于Straight的语音焦点合成方法[J].计算机工程,2005,31(13):46-47. 被引量：3
8黄健聪,万海,郝小卫,李磊.用近邻算法预测通信量时间序列[J].计算机科学,2005,32(7):31-33. 被引量：3
9杜春侠,高云,张文.多智能体系统中具有先验知识的Q学习算法[J].清华大学学报（自然科学版）,2005,45(7):981-984. 被引量：21
10费洪晓,巩艳玲,谢文彪,倪敏.基于混合学习策略的多Agent信息过滤系统[J].计算机应用,2006,26(2):267-269. 被引量：3

同被引文献56

1叶菲,罗景青,俞志富.一种改进的并行处理SVM学习算法[J].微电子学与计算机,2009,26(2):40-43. 被引量：6
2范波,潘泉,张洪才.多智能体学习中基于知识的强化函数设计方法[J].计算机工程与应用,2005,41(3):77-79. 被引量：3
3赵丽,董红斌.多Agent系统在RoboCup中的应用[J].哈尔滨师范大学自然科学学报,2005,21(2):40-45. 被引量：2
4童亮,陆际联,龚建伟.一种快速强化学习方法研究[J].北京理工大学学报,2005,25(4):328-331. 被引量：4
5于红斌,李孝安.基于栅格法的机器人快速路径规划[J].微电子学与计算机,2005,22(6):98-100. 被引量：63
6杜春侠,高云,张文.多智能体系统中具有先验知识的Q学习算法[J].清华大学学报（自然科学版）,2005,45(7):981-984. 被引量：21
7李楠,刘国栋.内在激励强化学习及其在Robocup仿真中的应用[J].计算机仿真,2006,23(4):160-162. 被引量：3
8郭锐,吴敏,彭军,彭姣,曹卫华.一种新的多智能体Q学习算法[J].自动化学报,2007,33(4):367-372. 被引量：13
9Wang B N,Gao Y,Chen Z Q,et al.LMRL:a multi-agent reinforcement learning model and algorithm[C]//Proceedings of Third International Conference on Information Technology and Applications (ICITA'05), 2005.
10Piao S H,Hong B R.Fast reinforcement learning approach to cooperative behavior acquisition in multi-agent system[C]//Proceedings of the 2002 IEEE/RSJ International Conference on Intelligent Robots and Systems, 2002,1 : 871-875.

引证文献7

1毛俊杰,刘国栋.基于先验知识的改进强化学习及其在MAS中应用[J].计算机工程与应用,2008,44(24):156-158. 被引量：2
2胡俊,朱庆保.未知环境下基于有先验知识的滚动Q学习机器人路径规划[J].控制与决策,2010,25(9):1364-1368. 被引量：11
3乔林,罗杰.MAS中基于多奖惩标准的Q学习算法研究[J].计算机科学,2012,39(B06):235-237.
4Quan LIU,Xudong YANG,Ling JING,Jin LI,Jiao LI.A parallel scheduling algorithm for reinforcement learning in large state space[J].Frontiers of Computer Science,2012,6(6):631-646.
5连志刚,高叶军,焦斌.基于学习算法的离散型制造业生产能力平衡技术[J].安徽大学学报（自然科学版）,2013,37(2):19-24.
6张婷宇,郑宝娟.基于滚动Q学习的机器人路径规划算法[J].科教导刊（电子版）,2019,0(29):275-275. 被引量：2
7王慧,秦广义,夏鹏,杨春梅,王刚.基于改进强化学习算法的移动机器人路径规划研究[J].计算机应用与软件,2022,39(7):269-274. 被引量：2

二级引证文献17

1孟伟,韩学东.并行强化学习算法及其应用研究[J].计算机工程与应用,2009,45(34):25-28. 被引量：7
2乔林,罗杰.学习过程中共享经验的Q学习算法的研究[J].计算机科学,2012,39(5):213-216. 被引量：1
3杨月全,韩飞,金露,倪春波,曹志强,张天平.基于局部加权k近邻的多机器人系统异步互增强学习[J].东南大学学报（自然科学版）,2012,42(A01):208-211. 被引量：2
4国海涛,岳峻,苏庆堂.基于自适应混沌变异粒子群算法的路径规划[J].计算机工程与应用,2012,48(30):46-49. 被引量：1
5胡喜玲,李洪波,胡俊.基于自适应混沌遗传算法的路径规划[J].计算机工程与应用,2013,49(9):68-73. 被引量：5
6周峰.基于Tent混沌粒子群算法的滚动窗口路径规划[J].计算机应用与软件,2013,30(5):76-79. 被引量：1
7张琴丽,吴怀宇,陈洋.未知环境下基于椭圆约束的机器人路径规划[J].计算机工程与设计,2014,35(11):3951-3955. 被引量：1
8徐守江.基于蚂蚁导航的未知环境下机器人路径滚动规划算法[J].西南师范大学学报（自然科学版）,2016,41(11):80-86. 被引量：2
9张宁,李彩虹,郭娜,王迪.基于CM-Q学习的自主移动机器人局部路径规划[J].山东理工大学学报（自然科学版）,2020,34(4):37-43. 被引量：3
10Yang Yang,Li Juntao,Peng Lingling.Multi-robot path planning based on a deep reinforcement learning DQN algorithm[J].CAAI Transactions on Intelligence Technology,2020,5(3):177-183. 被引量：38

1孟伟,韩学东.并行强化学习算法及其应用研究[J].计算机工程与应用,2009,45(34):25-28. 被引量：7
2为您服务[J].电脑编程技巧与维护,2014(19):95-95.
3郭艳卿,许志浩,王久君,孔祥维.基于混合字典学习的失配隐写分析方法[J].信息安全研究,2016,2(9):821-826.
4梅松青.基于自适应图的半监督学习方法[J].计算机系统应用,2014,23(2):173-177. 被引量：2
5刘宏义.用支持向量机建模学习过程[J].电子科技,2012,25(9):60-62.
6实用第一智慧密集[J].电脑编程技巧与维护,2014,0(21):96-96.
7杜荣,赵金旻.浅析计算机机房的维护与管理[J].经济技术协作信息,2008(19):125-125.
8李曦,李斌,唐小琦.无模型映射学习控制算法的研究[J].华中科技大学学报（自然科学版）,2002,30(12):56-58. 被引量：3
9李春贵,刘永信,王萌.集成规划的行动-自适应评价强化学习算法[J].内蒙古大学学报（自然科学版）,2008,39(3):346-350.
10李晓旭,李睿凡,冯方向,曹洁,王小捷.多视图有监督的LDA模型[J].电子学报,2014,42(10):2040-2044. 被引量：2

自动化技术与应用

2006年第11期

浏览历史

内容加载中请稍等...

基于经验知识的Q-学习算法被引量：7

参考文献5

二级参考文献20

共引文献56

同被引文献56

引证文献7

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

基于经验知识的Q-学习算法 被引量：7

参考文献5

二级参考文献20

共引文献56

同被引文献56

引证文献7

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

基于经验知识的Q-学习算法被引量：7