基于蒙特卡洛Q值函数的多智能体决策方法被引量：6

Multi-agent decision making using Monte Carlo Q-value function

导出

摘要多智能体决策问题是人工智能领域的研究热点.与单智能体决策问题相比,多智能体决策的策略搜索空间更大.分布式局部感知马尔可夫决策过程(Dec-POMDPs)建立了不确定环境下多智能体决策问题的通用模型,自提出以来受到很大关注,但是求解Dec-POMDPs问题计算复杂度高,内存占用大.基于此,提出一种新的Q值函数表示—–蒙特卡洛Q值函数(QMC),并从理论上证明QMC是最优Q值函数Q?的上界,能够保证启发式搜索到最优解;运用自适应抽样方法,平衡收敛准确性和求解时间的关系;结合启发式搜索的精确性和蒙特卡洛方法随机抽样的一般性,提出一种基于QMC的蒙特卡洛聚类/扩展算法(CEMC),CEMC整合了Q值函数求解和策略搜索过程,避免保存所有值函数,只按需求解.实验结果表明,CEMC在时间和内存占用上超过目前性能最好的使用紧凑Q值函数的启发式方法. Multi-agent decision making problems are very popular in artificial intelligence.Compared with single agent decision making problems,multi-agent decision making problems have larger policy space.Decentralized partially observable Markov decision processes(Dec-POMDPs)are general models for multi-agent decision making under uncertainty,which have caught much attention among researchers.Solving Dec-POMDPs has high computational complexity and takes much memory.This article presents a new Q-value function representation—Monte Carlo Q-value function(QMC),which is proved to be the upper bound of Q*.This guarantees that the optimal policy can be found.An adaptive sampling method is used to balance the precision of convergence and solving time.And an algorighm called clustering and expansion for Monte Carlo(CEMC)based on QMC is proposed,which combines the precision of heuristic search with the generality of Monte Carlo random sampling.This algorithm integrates Q-value function solving with policy search and calculates value functions as needed,which avoids the need to backup all Q-value functions.The experiments show that the proposed method outperforms the state-of-the-art heuristic methods,with the compact Q-value function.

作者张健潘耀宗杨海涛孙舒赵洪利无 ZHANG Jian;PAN Yao-zong;YANG Hai-tao;SUN Shu;ZHAO Hong-li;无(Space Engineering University,PAL Strategic Support Force,Beijing 101416,China;The 63628 Army of PLA,Sanhe 065201,China;The 63919 Army of PLA,Beijing 100089,China)

机构地区中国人民解放军战略支援部队航天工程大学中国人民解放军中国人民解放军

出处《控制与决策》 EI CSCD 北大核心 2020年第3期637-644,共8页 Control and Decision

关键词多智能体决策蒙特卡洛值函数马尔可夫决策 multi-agent decision making Monte Carlo Q-value function Markov decision

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

作者简介张健(1989-),男,博士,从事多智能体决策的研究,E-mail:zjconquer@126.com;潘耀宗(1984-),男,博士生,从事智能规划的研究,E-mail:panyaozong1284@163.com;通讯作者:杨海涛(1979-),男,副教授,博士,从事作战仿真系统的研究,E-mail:haitaoyang79@126.com;孙舒(1982-),女,工程师,博士,从事航天搜救的研究,E-mail:sunshu_susan@163.com;赵洪利(1964-),男,教授,博士生导师,从事作战筹划等研究,E-mail:zhlspace@sina.cn.

引文网络
相关文献

同被引文献29

1刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020,2(4):314-326. 被引量：60
2彭东,罗周全,秦亚光,王婷玉.基于加权线性回归模型组的湖北省工矿事故死亡人数分析预测[J].中国安全生产科学技术,2015,11(11):167-173. 被引量：8
3陶九阳,吴琳,胡晓峰.AlphaGo技术原理分析及人工智能军事应用展望[J].指挥与控制学报,2016,2(2):114-120. 被引量：75
4郭宪.基于深度增强学习的智能体行为演进研究综述[J].中国新通信,2017,19(17):50-54. 被引量：4
5郭文祥,余志勇,逄晨,孙亚民.认知无线电频谱感知技术综述[J].通信技术,2018,51(2):261-265. 被引量：16
6谢显中,罗莹,严可,陈九九.认知无线电网络中四维资源协作的研究现状与未来方向[J].通信学报,2018,39(2):149-163. 被引量：5
7栾宁丽,金聪.基于加权函数的全变分图像去噪模型[J].电子测量技术,2018,41(7):58-63. 被引量：2
8王灿,李伟.认知无线电资源分配技术综述[J].科技创新与应用,2018,8(18):11-12. 被引量：3
9刘海洋,唐宇波,胡晓峰,乔广鹏.基于兵棋推演的联合作战方案评估框架研究[J].系统仿真学报,2018,30(11):4115-4122. 被引量：26
10蔡亚梅.人工智能在军事领域中的应用及其发展[J].智能物联技术,2018,1(3):41-48. 被引量：22

引证文献6

1曾隽芳,牟佳,刘禹.多智能体群智博弈策略轻量化问题[J].指挥与控制学报,2020,6(4):381-387. 被引量：9
2陈瑜,沈昳婷,廖羽洁.基于多智能体的分布式音乐灯光控制系统研究[J].数码设计,2021,10(11):62-62. 被引量：1
3姚洪磊,杨轶杰.机器学习策略下网络非法用户检测技术研究[J].网信军民融合,2021(11):12-17.
4陈浩杰,范江亭,刘勇.深度强化学习解决动态旅行商问题[J].计算机应用,2022,42(4):1194-1200. 被引量：5
5陈亮,郭婷,刘韵婷,杨佳明.基于过滤机制筛选信息的多智能体策略方法[J].控制与决策,2022,37(6):1643-1648. 被引量：1
6孙宇祥,赵俊杰,解宇轩,喻车澄,周献中.自生成兵棋AI:基于大语言模型的双层Agent任务规划[J].控制与决策,2024,39(12):3927-3936. 被引量：3

二级引证文献19

1张晓东,许丹丹,王良,梁弘,吕宜生,王飞跃.基于复杂系统理论的平行城市模型架构与计算方法[J].指挥与控制学报,2021,7(1):28-37. 被引量：12
2刘伯阳,王兆魁.返回式航天器着陆段测控集群自组织控制[J].指挥与控制学报,2021,7(3):302-309. 被引量：1
3李亚玲,杨林瑶,葛俊,覃缘琪,王晓.博弈5.0:基于平行系统和机器博弈的社会认知平行博弈[J].智能科学与技术学报,2021,3(4):507-520. 被引量：4
4杨兵,彭佳,辛毅.基于行为树的网电一体作战行动控制建模研究[J].火力与指挥控制,2022,47(12):98-102. 被引量：3
5黄晓辉,杨凯铭,凌嘉壕.基于共享注意力的多智能体强化学习订单派送[J].计算机应用,2023,43(5):1620-1624. 被引量：1
6康秀光.基于LED光源与传统光源相结合的混合网络分布式智能灯光控制系统设计[J].科学技术创新,2023(13):69-72. 被引量：2
7李大瑞,肖平,孙永久.改进灰狼算法在焊接机器人路径规划的应用[J].佳木斯大学学报（自然科学版）,2023,41(3):96-100.
8苏林茂,赵洪坤,袁洪飞,金愿意.基于聚类与动态规划的无人机协同态势感知研究[J].现代电子技术,2023,46(15):95-101. 被引量：2
9马悦,吴琳,郭圣明.智能博弈技术军事应用展望[J].指挥与控制学报,2023,9(2):135-145. 被引量：5
10刘景林,郝嘉钰.强化学习云计算数据中心网络的智能路由策略[J].宁德师范学院学报（自然科学版）,2023,35(4):374-381. 被引量：2

1肖星星,张阳,黄海宁,张扬帆.基于MDP的分簇水声网络TDMA协议[J].网络新媒体技术,2019,8(6):48-54.
2夏金,孙宏波,孙立民.基于强化学习的生产再决策问题[J].计算机集成制造系统,2019,25(11):2935-2942. 被引量：5
3宋爱香,马冲.基于强化学习的图书内容推荐策略研究与应用[J].情报探索,2020,0(1):9-15. 被引量：1
4崔俊文,刘自红,石磊,刘福强,乐玉.基于分层学习的四足机器人运动自适应控制模型[J].计算机测量与控制,2020,28(1):105-110. 被引量：5
5Andrew Luong.Simulated Minimum Quadratic Distance Methods Using Grouped Data for Some Bivariate Continuous Models[J].Open Journal of Statistics,2018,8(2):362-389.
6欧为祥,陆泽青,朱达群,陈光磊,韩桂明(指导).基于激光雷达的移动机器人室内定位与导航[J].电子世界,2019,0(23):144-145. 被引量：6
7Yin Chen,Yu Fei,Jianxin Pan.Statistical Inference in Generalized Linear Mixed Models by Joint Modelling Mean and Covariance of Non-Normal Random Effects[J].Open Journal of Statistics,2015,5(6):568-584.
8Nagat Elkahwagy,Atif Ismail,Sana Maize,Kamal Reyad Mahmoud.A Quantum Monte Carlo Study of Lanthanum[J].World Journal of Condensed Matter Physics,2013,3(4):203-206.

控制与决策

2020年第3期

浏览历史

内容加载中请稍等...

基于蒙特卡洛Q值函数的多智能体决策方法被引量：6

同被引文献29

引证文献6

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于蒙特卡洛Q值函数的多智能体决策方法 被引量：6

同被引文献29

引证文献6

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于蒙特卡洛Q值函数的多智能体决策方法被引量：6