多Agent系统的Q值强化学习算法被引量：2

Q-learning Algorithm in Multi-Agent Systems

在线阅读下载PDF

导出

摘要对多Agent系统的Q值强化学习算法进行研究,将历史信息因素的影响添加到Q值学习中,提出了一个新的基于多Agent系统的Q值学习算法.该算法在保证多Agent系统利益达到相对最大化的同时,也有效降低了Agent之间的冲突率.最后,通过仿真测试验证了该算法的有效性. This paper investigated reinforcement learning in multi-Agent systems. By adding the historical information in learning process and updating the Q learning function, a new algorithm in multi-agents environment was proposed. This algorithm guaranteed the maximization of interests and reduced the conflict rate among multiple Agents. Finally, the effectiveness of the algorithm was verified by the simulation.

作者尚艳玲肖文雅

机构地区安阳师范学院计算机教学部新乡医学院现代教育中心

出处《河南师范大学学报（自然科学版）》 CAS 北大核心 2013年第2期158-160,共3页 Journal of Henan Normal University(Natural Science Edition)

基金国家自然科学基金(61073065) 河南省社科联省经联团调研课题(SKL-2012-2608)

关键词多AGENT 强化学习 Q值学习 multi-Agent systems reinforcement learning Q-learning

分类号 TP391 [自动化与计算机技术—计算机应用技术]

作者简介尚艳玲（1978-），女，河南安阳人，安阳师范学院讲师，主要从事分布式网络，多智能体研究．通信作者：肖文雅（1980-），女，河南邓州人，新乡医学院实验师，主要从事现代教育技术研究

引文网络
相关文献

参考文献8

1仲宇,顾国昌,张汝波.多智能体系统中的分布式强化学习研究现状[J].控制理论与应用,2003,20(3):317-322. 被引量：12
2Matkins J C H, Dayan P. Q-learning[J]. MachineLeaming, 1992,8(1) : 279-292.
3李影洁,朱秀丽.一种新的基于Agent流程建模方法[J].河南师范大学学报（自然科学版）,2012,40(3):62-65. 被引量：2
4Abdallah S, Lesser V. Multiagent reinforcement learning and self-organization in a network of agents[C]. AAMAS07, Honolulu,2007.
5冯乃勤,孙全党,王伟,南书坡.Mobile Agent系统的整体安全机制研究[J].河南师范大学学报（自然科学版）,2009,37(1):53-55. 被引量：1
6Gies O, Chaib-draa B. Apprentissage dela coordination multiagent: unemethode basee surle Q-learningpar j eu adaptatif[J]. Revue d'Intel ligence Artificielle, 2006,20 (2/3) : 385- 412.
7Hoogendoorn M. Adaptation of organizational models for multi-agent systems based on max flow networks[C]. UCAI'07, Hyderabad,2007.
8Gomes E R, Kowalczyk R. Dynamic analysis of muhiagent q-learning with egreedy exploration[C]. ICML'09,Montreal,2009.

二级参考文献69

1丁士拥,常天庆,牛春平,张建伟.基于Agent的建模技术研究[J].计算机工程与设计,2007,28(8):1747-1749. 被引量：12
2Jansen W A. Counter measures for the mobile agent security [J]. Computer Communications, 2000,23:1667-1676 .
3De Snoo C. Modelling Planning Processes with TALMOD[D]. Groningen: University of Groningen,2005.. 5-15.
4Jennings N R. Faratin, Norman. Autonomous Agents for Business Process Management[J]. Journal of Applied Artificial Intelligence, 2009(14) : 145-189.
5Bosansky B. A Virtual Company Simulation by Means of Autonomous Agents[D]. Prague: Charles University,2007.
6Buhler P A, Vidal J M. Towards Adaptive Workflow Enactment Using Multi-agent Systems[J]. Technology and Management,2009(6) : 61-87.
7Wu J, Gan R. Norm-based contract net protocol for coordination in multi-agent systems[C]. Pierre-Jean charrel.. Project Management and Risk Management in Complex Projects, 2006:91-107.
8SUTTON R. Learning to predict by the methods of temporal difference [J]. Machine Learning, 1988,3( 1 ) :9 - 44.
9RIBEIRO C. Embedding a priori knowledge in reinforcement learning [ J]. J of Intelligent and Robotic Systems, 1998,21 ( 1 ) :51 - 71.
10OH C, NAKASHIMA T, ISHIBUCHI H. Initialization of Q -values by fuzzy rules for accelerating Q -learning [A]. Proc of IEEE Int Conf on Neural Networks [ C ]. Piscataway, NJ: IEEE Press,1998:2051 - 2056.

共引文献12

1宋梅萍,顾国昌,张国印.随机博弈框架下的多agent强化学习方法综述[J].控制与决策,2005,20(10):1081-1090. 被引量：13
2黄炳强,曹广益,王占全.强化学习原理、算法及应用[J].河北工业大学学报,2006,35(6):34-38. 被引量：19
3唐亮贵,刘波,唐灿,程代杰.基于神经网络的Agent增强学习模型[J].计算机科学,2007,34(11):156-158. 被引量：3
4刘喜春,王超,王文广,王维平.基于多Agent强化学习的战时备件供应保障动态协调机制[J].空军工程大学学报（自然科学版）,2009,10(3):59-63. 被引量：2
5余涛,周斌,甄卫国.强化学习理论在电力系统中的应用及展望[J].电力系统保护与控制,2009,37(14):122-128. 被引量：30
6孟伟,韩学东.并行强化学习算法及其应用研究[J].计算机工程与应用,2009,45(34):25-28. 被引量：7
7肖正,马胜祥,张世永.一种基于Q学习的分布式多任务流调度算法[J].小型微型计算机系统,2010,31(4):597-602. 被引量：1
8陈玉明,张广明,赵英凯.基于强化学习的混合智能控制算法研究与分析[J].机床与液压,2010,38(20):75-77.
9余涛,刘靖,胡细兵.基于分布式多步回溯Q(λ)学习的复杂电网最优潮流算法[J].电工技术学报,2012,27(4):185-192. 被引量：12
10肖文雅,尚艳玲.一种基于多Agent的有效负载均衡的WebGIS体系模型[J].河南师范大学学报（自然科学版）,2015,43(4):151-156. 被引量：1

同被引文献14

1焦殿科,石川.共享经验的多主体强化学习研究[J].计算机工程,2008,34(11):219-221. 被引量：4
2李光敏.基于.NET和ArcIMS的农用地定级信息发布系统设计与研究[J].国土资源遥感,2008,20(2):109-111. 被引量：2
3王雪松,田西兰,程玉虎,易建强.基于协同最小二乘支持向量机的Q学习[J].自动化学报,2009,35(2):214-219. 被引量：20
4谢瑞,肖海红.基于GIS的配电网拓扑算法的研究与实现[J].河南师范大学学报（自然科学版）,2010,38(2):45-48. 被引量：7
5邵杰,杨静宇,万鸣华,黄传波.基于学习分类器的多机器人路径规划收敛性研究[J].计算机研究与发展,2010,47(5):948-955. 被引量：10
6朱大奇,颜明重.移动机器人路径规划技术综述[J].控制与决策,2010,25(7):961-967. 被引量：341
7高晓蓉,徐丹,雷瑛.基于Flex和REST服务的WebGIS系统开发——以陇西县地理空间信息应用系统为例[J].遥感技术与应用,2011,26(1):123-128. 被引量：21
8王轶,周迅,周伟,李飞.基于WebGIS的离散时序空间数据动态可视化研究[J].国土资源遥感,2012,24(2):143-147. 被引量：3
9李影洁,朱秀丽.一种新的基于Agent流程建模方法[J].河南师范大学学报（自然科学版）,2012,40(3):62-65. 被引量：2
10杨献峰,付俊辉.移动机器人路径规划的仿真研究[J].计算机仿真,2012,29(7):223-226. 被引量：11

引证文献2

1肖文雅,尚艳玲.一种基于多Agent的有效负载均衡的WebGIS体系模型[J].河南师范大学学报（自然科学版）,2015,43(4):151-156. 被引量：1
2邵杰,王清珍.基于XCS和LS-SVM的ALV在狭隘环境中的避碰规划[J].人工智能与机器人研究,2017,6(1):22-30.

二级引证文献1

1郑延斌,樊文鑫,韩梦云,陶雪丽.基于博弈论及Q学习的多Agent协作追捕算法[J].计算机应用,2020,40(6):1613-1620. 被引量：6

1闫超,何晓东,樊永乐.BI系统在铸造企业的应用研究[J].价值工程,2016,35(18):66-67. 被引量：1
2吴焕,潘林,王晓箴,许榕生.应用不完整攻击图分析的风险评估模型[J].北京邮电大学学报,2010,33(3):57-61. 被引量：4
3李奋华.一种新的链接预测方法在复杂网络中的应用[J].电脑知识与技术,2016,12(6X):32-34.
4熊科军.探析信息传递效用角度的WEB全站式导航设计[J].美与时代（创意）（上）,2012(12):119-121. 被引量：1
5游文霞,李文武,王仁明.域间路由中的机制设计研究综述[J].三峡大学学报（自然科学版）,2007,29(4):358-362. 被引量：1
6王健,甘国辉.多维农业信息分类体系[J].农业工程学报,2004,20(4):152-156. 被引量：27
7杜元清.信息环境与信息传递样式[J].情报理论与实践,2009,32(8):16-20. 被引量：28
8姬志伟,杨英宝,孙益祥.基于贝叶斯网络的航空公司安全风险评估研究[J].中国民航飞行学院学报,2016,27(6):25-28. 被引量：4
9文亮,李清荣.网络口碑在服装网购中的应用研究[J].电子商务,2014,15(1):22-23.
10雎永文,杨雪,赵可.基于遗传神经网络的我国煤矿安全预警评估研究[J].物流技术,2012,31(8):285-287. 被引量：1

河南师范大学学报（自然科学版）

2013年第2期

浏览历史

内容加载中请稍等...

多Agent系统的Q值强化学习算法被引量：2

参考文献8

二级参考文献69

共引文献12

同被引文献14

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

多Agent系统的Q值强化学习算法 被引量：2

参考文献8

二级参考文献69

共引文献12

同被引文献14

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

多Agent系统的Q值强化学习算法被引量：2