检索结果-维普期刊中文期刊服务平台

基于图注意力的分组多智能体强化学习方法: 1; 作者朱士昊彭可兴马廷淮《计算机科学》北大核心 2025年第9期330-336,共7页; 目前,多智能体强化学习在各类合作任务中被广泛应用。但在真实环境中,智能体通常只能获取部分观测值,导致合作策略的探索效率低下。此外,智能体共享奖励值,导致其难以准确衡量个体贡献。针对这些问题,提出一种基于图注意力的分组多智能... 展开更多; 关键词多智能体强化学习图注意力网络集中训练分散执行多智能体协作多智能体通信; 在线阅读下载PDF 职称材料

聚类与信息共享的多智能体深度强化学习协同控制交通灯被引量：2: 2; 作者杜同春王波 +2 位作者程浩然罗乐曾能民《电子与信息学报》 EI CAS CSCD 北大核心 2024年第2期538-545,共8页; 该文提出一种适用于多路口交通灯实时控制的多智能体深度循环Q-网络(MADRQN),目的是提高多个路口的联合控制效果。该方法将交通灯控制建模成马尔可夫决策过程,将每个路口的控制器作为智能体,根据位置和观测信息对智能体聚类,然后在聚类... 展开更多; 关键词交通信号灯协同控制集中训练分散执行强化学习智能体聚类生长型神经气深度循环Q网络; 在线阅读下载PDF 职称材料

部分可观测条件下的策略迁移强化学习方法: 3; 作者王忠禹徐晓鹏王东《现代防御技术》北大核心 2024年第2期63-71,共9页; 针对多智能体强化学习算法在部分可观测条件下难以形成有效协同策略的问题,基于集中式训练与分散式执行范式(CTDE)提出一种策略迁移强化学习方法。该方法在全局观测下训练可以探索到良好协同策略的教师模块,在部分可观测条件下,学生模... 展开更多; 关键词多智能体强化学习部分观测策略迁移集中式训练与分散式执行; 在线阅读下载PDF 职称材料

基于加权值函数分解的多智能体分层强化学习技能发现方法被引量：1: 4; 作者邹启杰李文雪 +2 位作者高兵赵锡玲张汝波《计算机应用研究》 CSCD 北大核心 2023年第9期2743-2748,2754,共7页; 针对目前大多数多智能体强化学习算法在智能体数量增多以及环境动态不稳定的情况下导致的维度爆炸和奖励稀疏的问题,提出了一种基于加权值函数分解的多智能体分层强化学习技能发现算法。首先,该算法将集中训练分散执行的架构与分层强化... 展开更多; 关键词多智能体强化学习分层强化学习集中训练分散执行值函数分解技能发现; 在线阅读下载PDF 职称材料

题名基于图注意力的分组多智能体强化学习方法: 1; 作者朱士昊彭可兴马廷淮; 机构南京信息工程大学软件学院南京信息工程大学计算机学院江苏海洋大学计算机工程学院; 出处《计算机科学》北大核心 2025年第9期330-336,共7页; 基金国家自然科学基金(62372243,62102187)。; 文摘目前,多智能体强化学习在各类合作任务中被广泛应用。但在真实环境中,智能体通常只能获取部分观测值,导致合作策略的探索效率低下。此外,智能体共享奖励值,导致其难以准确衡量个体贡献。针对这些问题,提出一种基于图注意力的分组多智能体强化学习框架,其有效提高了合作效率并改善了个体贡献的衡量。首先,构建图结构的多智能体系统,通过图注意力网络学习个体与邻居的关系以进行信息共享,扩大智能体个体的感受野,从而缓解部分可观测的限制并有效衡量个体贡献。其次,设计了动作参考模块,为个体动作选择提供联合动作参考信息,使智能体在探索时更高效、多样。在两个不同规模的多智能体控制场景下,所提方法相比基线方法展现出显著的优势;同时,消融实验证明了图注意力分组方法和通信设置的有效性。; 关键词多智能体强化学习图注意力网络集中训练分散执行多智能体协作多智能体通信; Keywords Multi-agent reinforcement learning Graph attention network Centralized training decentralized execution Multi-agent cooperation Multi-agent communication; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名聚类与信息共享的多智能体深度强化学习协同控制交通灯被引量：2: 2; 作者杜同春王波程浩然罗乐曾能民; 机构安徽师范大学计算机与信息学院哈尔滨工程大学经济管理学院; 出处《电子与信息学报》 EI CAS CSCD 北大核心 2024年第2期538-545,共8页; 文摘该文提出一种适用于多路口交通灯实时控制的多智能体深度循环Q-网络(MADRQN),目的是提高多个路口的联合控制效果。该方法将交通灯控制建模成马尔可夫决策过程,将每个路口的控制器作为智能体,根据位置和观测信息对智能体聚类,然后在聚类内部进行信息共享和中心化训练,并在每个训练过程结束时将评价值最高的值函数网络参数分享给其它智能体。在城市交通仿真软件(SUMO)下的仿真实验结果表明,所提方法能够减少通信的数据量,使得智能体之间的信息共享和中心化训练更加可行和高效,车辆平均等待时长少于当前最优的基于多智能体深度强化学习的交通灯控制方法,能够有效地缓解交通拥堵。; 关键词交通信号灯协同控制集中训练分散执行强化学习智能体聚类生长型神经气深度循环Q网络; Keywords Traffic light cooperative control Centralized training with decentralized execution Reinforcement learning agent cluster Growing neural gas Deep recurrent Q-network; 分类号 TN929.5 [电子电信—通信与信息系统]; 在线阅读下载PDF 职称材料

题名部分可观测条件下的策略迁移强化学习方法: 3; 作者王忠禹徐晓鹏王东; 机构大连理工大学控制科学与工程学院; 出处《现代防御技术》北大核心 2024年第2期63-71,共9页; 基金国家自然科学基金(61973050,62173061)。; 文摘针对多智能体强化学习算法在部分可观测条件下难以形成有效协同策略的问题,基于集中式训练与分散式执行范式(CTDE)提出一种策略迁移强化学习方法。该方法在全局观测下训练可以探索到良好协同策略的教师模块,在部分可观测条件下,学生模块依据最大化累计回报的期望为目标函数在线训练的同时,利用策略蒸馏技术从教师模块进行策略迁移,并自适应调整教师策略对学生策略的影响比重。在多个地图场景中对所提出的方法进行仿真验证,实验结果表明部分可观测条件下学生模块的胜率高于所对比的基线算法的胜率。研究成果可以应用于多智能体合作任务,提升智能体在分散式执行时的协同性能。; 关键词多智能体强化学习部分观测策略迁移集中式训练与分散式执行; Keywords multi-agent reinforcement learning partial observation policy transfer centralized training and decentralized execution(CTDE); 分类号 V19 [航空宇航科学与技术—人机与环境工程] TP391.9 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于加权值函数分解的多智能体分层强化学习技能发现方法被引量：1: 4; 作者邹启杰李文雪高兵赵锡玲张汝波; 机构大连大学信息工程学院大连民族大学机电工程学院; 出处《计算机应用研究》 CSCD 北大核心 2023年第9期2743-2748,2754,共7页; 基金国家自然科学基金资助项目(61673084) 2021年辽宁省教育厅项目(LJKZ1180)。; 文摘针对目前大多数多智能体强化学习算法在智能体数量增多以及环境动态不稳定的情况下导致的维度爆炸和奖励稀疏的问题,提出了一种基于加权值函数分解的多智能体分层强化学习技能发现算法。首先,该算法将集中训练分散执行的架构与分层强化学习相结合,在上层采用加权值函数分解的方法解决智能体在训练过程中容易忽略最优策略而选择次优策略的问题;其次,在下层采用独立Q学习算法使其能够在多智能体环境中分散式地处理高维复杂的任务;最后,在底层独立Q学习的基础上引入技能发现策略,使智能体之间相互学习互补的技能。分别在简易团队运动和星际争霸Ⅱ两个仿真实验平台上对该算法与多智能体强化学习算法和分层强化学习算法进行对比,实验表明,该算法在奖励回报以及双方对抗胜率等性能指标上都有所提高,提升了整个多智能体系统的决策能力和收敛速度,验证了算法的可行性。; 关键词多智能体强化学习分层强化学习集中训练分散执行值函数分解技能发现; Keywords multi-agent reinforcement learning hierarchical reinforcement learning centralized training decentralized execution value function decomposition skill discovery; 分类号 TP181 [自动化与计算机技术—控制理论与控制工程]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	基于图注意力的分组多智能体强化学习方法	朱士昊彭可兴马廷淮	《计算机科学》北大核心	2025	0	在线阅读下载PDF 职称材料
2	聚类与信息共享的多智能体深度强化学习协同控制交通灯	杜同春王波程浩然罗乐曾能民	《电子与信息学报》 EI CAS CSCD 北大核心	2024	2	在线阅读下载PDF 职称材料
3	部分可观测条件下的策略迁移强化学习方法	王忠禹徐晓鹏王东	《现代防御技术》北大核心	2024	0	在线阅读下载PDF 职称材料
4	基于加权值函数分解的多智能体分层强化学习技能发现方法	邹启杰李文雪高兵赵锡玲张汝波	《计算机应用研究》 CSCD 北大核心	2023	1	在线阅读下载PDF 职称材料