期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
4
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于图注意力的分组多智能体强化学习方法
1
作者
朱士昊
彭可兴
马廷淮
《计算机科学》
北大核心
2025年第9期330-336,共7页
目前,多智能体强化学习在各类合作任务中被广泛应用。但在真实环境中,智能体通常只能获取部分观测值,导致合作策略的探索效率低下。此外,智能体共享奖励值,导致其难以准确衡量个体贡献。针对这些问题,提出一种基于图注意力的分组多智能...
目前,多智能体强化学习在各类合作任务中被广泛应用。但在真实环境中,智能体通常只能获取部分观测值,导致合作策略的探索效率低下。此外,智能体共享奖励值,导致其难以准确衡量个体贡献。针对这些问题,提出一种基于图注意力的分组多智能体强化学习框架,其有效提高了合作效率并改善了个体贡献的衡量。首先,构建图结构的多智能体系统,通过图注意力网络学习个体与邻居的关系以进行信息共享,扩大智能体个体的感受野,从而缓解部分可观测的限制并有效衡量个体贡献。其次,设计了动作参考模块,为个体动作选择提供联合动作参考信息,使智能体在探索时更高效、多样。在两个不同规模的多智能体控制场景下,所提方法相比基线方法展现出显著的优势;同时,消融实验证明了图注意力分组方法和通信设置的有效性。
展开更多
关键词
多智能体强化学习
图注意力网络
集中训练分散执行
多智能体协作
多智能体通信
在线阅读
下载PDF
职称材料
聚类与信息共享的多智能体深度强化学习协同控制交通灯
被引量:
2
2
作者
杜同春
王波
+2 位作者
程浩然
罗乐
曾能民
《电子与信息学报》
EI
CAS
CSCD
北大核心
2024年第2期538-545,共8页
该文提出一种适用于多路口交通灯实时控制的多智能体深度循环Q-网络(MADRQN),目的是提高多个路口的联合控制效果。该方法将交通灯控制建模成马尔可夫决策过程,将每个路口的控制器作为智能体,根据位置和观测信息对智能体聚类,然后在聚类...
该文提出一种适用于多路口交通灯实时控制的多智能体深度循环Q-网络(MADRQN),目的是提高多个路口的联合控制效果。该方法将交通灯控制建模成马尔可夫决策过程,将每个路口的控制器作为智能体,根据位置和观测信息对智能体聚类,然后在聚类内部进行信息共享和中心化训练,并在每个训练过程结束时将评价值最高的值函数网络参数分享给其它智能体。在城市交通仿真软件(SUMO)下的仿真实验结果表明,所提方法能够减少通信的数据量,使得智能体之间的信息共享和中心化训练更加可行和高效,车辆平均等待时长少于当前最优的基于多智能体深度强化学习的交通灯控制方法,能够有效地缓解交通拥堵。
展开更多
关键词
交通信号灯协同控制
集中训练分散执行
强化学习智能体聚类
生长型神经气
深度循环Q网络
在线阅读
下载PDF
职称材料
部分可观测条件下的策略迁移强化学习方法
3
作者
王忠禹
徐晓鹏
王东
《现代防御技术》
北大核心
2024年第2期63-71,共9页
针对多智能体强化学习算法在部分可观测条件下难以形成有效协同策略的问题,基于集中式训练与分散式执行范式(CTDE)提出一种策略迁移强化学习方法。该方法在全局观测下训练可以探索到良好协同策略的教师模块,在部分可观测条件下,学生模...
针对多智能体强化学习算法在部分可观测条件下难以形成有效协同策略的问题,基于集中式训练与分散式执行范式(CTDE)提出一种策略迁移强化学习方法。该方法在全局观测下训练可以探索到良好协同策略的教师模块,在部分可观测条件下,学生模块依据最大化累计回报的期望为目标函数在线训练的同时,利用策略蒸馏技术从教师模块进行策略迁移,并自适应调整教师策略对学生策略的影响比重。在多个地图场景中对所提出的方法进行仿真验证,实验结果表明部分可观测条件下学生模块的胜率高于所对比的基线算法的胜率。研究成果可以应用于多智能体合作任务,提升智能体在分散式执行时的协同性能。
展开更多
关键词
多智能体
强化学习
部分观测
策略迁移
集中
式
训练
与
分散
式
执行
在线阅读
下载PDF
职称材料
基于加权值函数分解的多智能体分层强化学习技能发现方法
被引量:
1
4
作者
邹启杰
李文雪
+2 位作者
高兵
赵锡玲
张汝波
《计算机应用研究》
CSCD
北大核心
2023年第9期2743-2748,2754,共7页
针对目前大多数多智能体强化学习算法在智能体数量增多以及环境动态不稳定的情况下导致的维度爆炸和奖励稀疏的问题,提出了一种基于加权值函数分解的多智能体分层强化学习技能发现算法。首先,该算法将集中训练分散执行的架构与分层强化...
针对目前大多数多智能体强化学习算法在智能体数量增多以及环境动态不稳定的情况下导致的维度爆炸和奖励稀疏的问题,提出了一种基于加权值函数分解的多智能体分层强化学习技能发现算法。首先,该算法将集中训练分散执行的架构与分层强化学习相结合,在上层采用加权值函数分解的方法解决智能体在训练过程中容易忽略最优策略而选择次优策略的问题;其次,在下层采用独立Q学习算法使其能够在多智能体环境中分散式地处理高维复杂的任务;最后,在底层独立Q学习的基础上引入技能发现策略,使智能体之间相互学习互补的技能。分别在简易团队运动和星际争霸Ⅱ两个仿真实验平台上对该算法与多智能体强化学习算法和分层强化学习算法进行对比,实验表明,该算法在奖励回报以及双方对抗胜率等性能指标上都有所提高,提升了整个多智能体系统的决策能力和收敛速度,验证了算法的可行性。
展开更多
关键词
多智能体强化学习
分层强化学习
集中训练分散执行
值函数分解
技能发现
在线阅读
下载PDF
职称材料
题名
基于图注意力的分组多智能体强化学习方法
1
作者
朱士昊
彭可兴
马廷淮
机构
南京信息工程大学软件学院
南京信息工程大学计算机学院
江苏海洋大学计算机工程学院
出处
《计算机科学》
北大核心
2025年第9期330-336,共7页
基金
国家自然科学基金(62372243,62102187)。
文摘
目前,多智能体强化学习在各类合作任务中被广泛应用。但在真实环境中,智能体通常只能获取部分观测值,导致合作策略的探索效率低下。此外,智能体共享奖励值,导致其难以准确衡量个体贡献。针对这些问题,提出一种基于图注意力的分组多智能体强化学习框架,其有效提高了合作效率并改善了个体贡献的衡量。首先,构建图结构的多智能体系统,通过图注意力网络学习个体与邻居的关系以进行信息共享,扩大智能体个体的感受野,从而缓解部分可观测的限制并有效衡量个体贡献。其次,设计了动作参考模块,为个体动作选择提供联合动作参考信息,使智能体在探索时更高效、多样。在两个不同规模的多智能体控制场景下,所提方法相比基线方法展现出显著的优势;同时,消融实验证明了图注意力分组方法和通信设置的有效性。
关键词
多智能体强化学习
图注意力网络
集中训练分散执行
多智能体协作
多智能体通信
Keywords
Multi-agent reinforcement learning
Graph attention network
Centralized training decentralized execution
Multi-agent cooperation
Multi-agent communication
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
聚类与信息共享的多智能体深度强化学习协同控制交通灯
被引量:
2
2
作者
杜同春
王波
程浩然
罗乐
曾能民
机构
安徽师范大学计算机与信息学院
哈尔滨工程大学经济管理学院
出处
《电子与信息学报》
EI
CAS
CSCD
北大核心
2024年第2期538-545,共8页
文摘
该文提出一种适用于多路口交通灯实时控制的多智能体深度循环Q-网络(MADRQN),目的是提高多个路口的联合控制效果。该方法将交通灯控制建模成马尔可夫决策过程,将每个路口的控制器作为智能体,根据位置和观测信息对智能体聚类,然后在聚类内部进行信息共享和中心化训练,并在每个训练过程结束时将评价值最高的值函数网络参数分享给其它智能体。在城市交通仿真软件(SUMO)下的仿真实验结果表明,所提方法能够减少通信的数据量,使得智能体之间的信息共享和中心化训练更加可行和高效,车辆平均等待时长少于当前最优的基于多智能体深度强化学习的交通灯控制方法,能够有效地缓解交通拥堵。
关键词
交通信号灯协同控制
集中训练分散执行
强化学习智能体聚类
生长型神经气
深度循环Q网络
Keywords
Traffic light cooperative control
Centralized training with decentralized execution
Reinforcement learning agent cluster
Growing neural gas
Deep recurrent Q-network
分类号
TN929.5 [电子电信—通信与信息系统]
在线阅读
下载PDF
职称材料
题名
部分可观测条件下的策略迁移强化学习方法
3
作者
王忠禹
徐晓鹏
王东
机构
大连理工大学控制科学与工程学院
出处
《现代防御技术》
北大核心
2024年第2期63-71,共9页
基金
国家自然科学基金(61973050,62173061)。
文摘
针对多智能体强化学习算法在部分可观测条件下难以形成有效协同策略的问题,基于集中式训练与分散式执行范式(CTDE)提出一种策略迁移强化学习方法。该方法在全局观测下训练可以探索到良好协同策略的教师模块,在部分可观测条件下,学生模块依据最大化累计回报的期望为目标函数在线训练的同时,利用策略蒸馏技术从教师模块进行策略迁移,并自适应调整教师策略对学生策略的影响比重。在多个地图场景中对所提出的方法进行仿真验证,实验结果表明部分可观测条件下学生模块的胜率高于所对比的基线算法的胜率。研究成果可以应用于多智能体合作任务,提升智能体在分散式执行时的协同性能。
关键词
多智能体
强化学习
部分观测
策略迁移
集中
式
训练
与
分散
式
执行
Keywords
multi-agent
reinforcement learning
partial observation
policy transfer
centralized training and decentralized execution(CTDE)
分类号
V19 [航空宇航科学与技术—人机与环境工程]
TP391.9 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于加权值函数分解的多智能体分层强化学习技能发现方法
被引量:
1
4
作者
邹启杰
李文雪
高兵
赵锡玲
张汝波
机构
大连大学信息工程学院
大连民族大学机电工程学院
出处
《计算机应用研究》
CSCD
北大核心
2023年第9期2743-2748,2754,共7页
基金
国家自然科学基金资助项目(61673084)
2021年辽宁省教育厅项目(LJKZ1180)。
文摘
针对目前大多数多智能体强化学习算法在智能体数量增多以及环境动态不稳定的情况下导致的维度爆炸和奖励稀疏的问题,提出了一种基于加权值函数分解的多智能体分层强化学习技能发现算法。首先,该算法将集中训练分散执行的架构与分层强化学习相结合,在上层采用加权值函数分解的方法解决智能体在训练过程中容易忽略最优策略而选择次优策略的问题;其次,在下层采用独立Q学习算法使其能够在多智能体环境中分散式地处理高维复杂的任务;最后,在底层独立Q学习的基础上引入技能发现策略,使智能体之间相互学习互补的技能。分别在简易团队运动和星际争霸Ⅱ两个仿真实验平台上对该算法与多智能体强化学习算法和分层强化学习算法进行对比,实验表明,该算法在奖励回报以及双方对抗胜率等性能指标上都有所提高,提升了整个多智能体系统的决策能力和收敛速度,验证了算法的可行性。
关键词
多智能体强化学习
分层强化学习
集中训练分散执行
值函数分解
技能发现
Keywords
multi-agent reinforcement learning
hierarchical reinforcement learning
centralized training decentralized execution
value function decomposition
skill discovery
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于图注意力的分组多智能体强化学习方法
朱士昊
彭可兴
马廷淮
《计算机科学》
北大核心
2025
0
在线阅读
下载PDF
职称材料
2
聚类与信息共享的多智能体深度强化学习协同控制交通灯
杜同春
王波
程浩然
罗乐
曾能民
《电子与信息学报》
EI
CAS
CSCD
北大核心
2024
2
在线阅读
下载PDF
职称材料
3
部分可观测条件下的策略迁移强化学习方法
王忠禹
徐晓鹏
王东
《现代防御技术》
北大核心
2024
0
在线阅读
下载PDF
职称材料
4
基于加权值函数分解的多智能体分层强化学习技能发现方法
邹启杰
李文雪
高兵
赵锡玲
张汝波
《计算机应用研究》
CSCD
北大核心
2023
1
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部