期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于图注意力的分组多智能体强化学习方法
1
作者 朱士昊 彭可兴 马廷淮 《计算机科学》 北大核心 2025年第9期330-336,共7页
目前,多智能体强化学习在各类合作任务中被广泛应用。但在真实环境中,智能体通常只能获取部分观测值,导致合作策略的探索效率低下。此外,智能体共享奖励值,导致其难以准确衡量个体贡献。针对这些问题,提出一种基于图注意力的分组多智能... 目前,多智能体强化学习在各类合作任务中被广泛应用。但在真实环境中,智能体通常只能获取部分观测值,导致合作策略的探索效率低下。此外,智能体共享奖励值,导致其难以准确衡量个体贡献。针对这些问题,提出一种基于图注意力的分组多智能体强化学习框架,其有效提高了合作效率并改善了个体贡献的衡量。首先,构建图结构的多智能体系统,通过图注意力网络学习个体与邻居的关系以进行信息共享,扩大智能体个体的感受野,从而缓解部分可观测的限制并有效衡量个体贡献。其次,设计了动作参考模块,为个体动作选择提供联合动作参考信息,使智能体在探索时更高效、多样。在两个不同规模的多智能体控制场景下,所提方法相比基线方法展现出显著的优势;同时,消融实验证明了图注意力分组方法和通信设置的有效性。 展开更多
关键词 多智能体强化学习 图注意力网络 集中训练分散执行 多智能体协作 多智能体通信
在线阅读 下载PDF
聚类与信息共享的多智能体深度强化学习协同控制交通灯 被引量:2
2
作者 杜同春 王波 +2 位作者 程浩然 罗乐 曾能民 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第2期538-545,共8页
该文提出一种适用于多路口交通灯实时控制的多智能体深度循环Q-网络(MADRQN),目的是提高多个路口的联合控制效果。该方法将交通灯控制建模成马尔可夫决策过程,将每个路口的控制器作为智能体,根据位置和观测信息对智能体聚类,然后在聚类... 该文提出一种适用于多路口交通灯实时控制的多智能体深度循环Q-网络(MADRQN),目的是提高多个路口的联合控制效果。该方法将交通灯控制建模成马尔可夫决策过程,将每个路口的控制器作为智能体,根据位置和观测信息对智能体聚类,然后在聚类内部进行信息共享和中心化训练,并在每个训练过程结束时将评价值最高的值函数网络参数分享给其它智能体。在城市交通仿真软件(SUMO)下的仿真实验结果表明,所提方法能够减少通信的数据量,使得智能体之间的信息共享和中心化训练更加可行和高效,车辆平均等待时长少于当前最优的基于多智能体深度强化学习的交通灯控制方法,能够有效地缓解交通拥堵。 展开更多
关键词 交通信号灯协同控制 集中训练分散执行 强化学习智能体聚类 生长型神经气 深度循环Q网络
在线阅读 下载PDF
部分可观测条件下的策略迁移强化学习方法
3
作者 王忠禹 徐晓鹏 王东 《现代防御技术》 北大核心 2024年第2期63-71,共9页
针对多智能体强化学习算法在部分可观测条件下难以形成有效协同策略的问题,基于集中式训练与分散式执行范式(CTDE)提出一种策略迁移强化学习方法。该方法在全局观测下训练可以探索到良好协同策略的教师模块,在部分可观测条件下,学生模... 针对多智能体强化学习算法在部分可观测条件下难以形成有效协同策略的问题,基于集中式训练与分散式执行范式(CTDE)提出一种策略迁移强化学习方法。该方法在全局观测下训练可以探索到良好协同策略的教师模块,在部分可观测条件下,学生模块依据最大化累计回报的期望为目标函数在线训练的同时,利用策略蒸馏技术从教师模块进行策略迁移,并自适应调整教师策略对学生策略的影响比重。在多个地图场景中对所提出的方法进行仿真验证,实验结果表明部分可观测条件下学生模块的胜率高于所对比的基线算法的胜率。研究成果可以应用于多智能体合作任务,提升智能体在分散式执行时的协同性能。 展开更多
关键词 多智能体 强化学习 部分观测 策略迁移 集中训练分散执行
在线阅读 下载PDF
基于加权值函数分解的多智能体分层强化学习技能发现方法 被引量:1
4
作者 邹启杰 李文雪 +2 位作者 高兵 赵锡玲 张汝波 《计算机应用研究》 CSCD 北大核心 2023年第9期2743-2748,2754,共7页
针对目前大多数多智能体强化学习算法在智能体数量增多以及环境动态不稳定的情况下导致的维度爆炸和奖励稀疏的问题,提出了一种基于加权值函数分解的多智能体分层强化学习技能发现算法。首先,该算法将集中训练分散执行的架构与分层强化... 针对目前大多数多智能体强化学习算法在智能体数量增多以及环境动态不稳定的情况下导致的维度爆炸和奖励稀疏的问题,提出了一种基于加权值函数分解的多智能体分层强化学习技能发现算法。首先,该算法将集中训练分散执行的架构与分层强化学习相结合,在上层采用加权值函数分解的方法解决智能体在训练过程中容易忽略最优策略而选择次优策略的问题;其次,在下层采用独立Q学习算法使其能够在多智能体环境中分散式地处理高维复杂的任务;最后,在底层独立Q学习的基础上引入技能发现策略,使智能体之间相互学习互补的技能。分别在简易团队运动和星际争霸Ⅱ两个仿真实验平台上对该算法与多智能体强化学习算法和分层强化学习算法进行对比,实验表明,该算法在奖励回报以及双方对抗胜率等性能指标上都有所提高,提升了整个多智能体系统的决策能力和收敛速度,验证了算法的可行性。 展开更多
关键词 多智能体强化学习 分层强化学习 集中训练分散执行 值函数分解 技能发现
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部