期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于观测重构的多智能体强化学习方法
被引量:
2
1
作者
史殿习
胡浩萌
+4 位作者
宋林娜
杨焕焕
欧阳倩滢
谭杰夫
陈莹
《计算机科学》
CSCD
北大核心
2024年第4期280-290,共11页
共同知识是多智能体系统内众所周知的知识集。如何充分利用共同知识进行策略学习,是多智能体独立学习系统中的一个挑战性问题。针对这一问题,围绕共同知识提取和独立学习网络设计,提出了一种基于观测重构的多智能体强化学习方法IPPO-CKO...
共同知识是多智能体系统内众所周知的知识集。如何充分利用共同知识进行策略学习,是多智能体独立学习系统中的一个挑战性问题。针对这一问题,围绕共同知识提取和独立学习网络设计,提出了一种基于观测重构的多智能体强化学习方法IPPO-CKOR。首先,对智能体的观测信息进行共同知识特征的计算与融合,得到融合共同知识特征的观测信息;其次,采用基于共同知识的智能体选择算法,选择关系密切的智能体,并使用重构特征生成机制构建它们的特征信息,其与融合共同知识特征的观测信息组成重构观测信息,用于智能体策略的学习与执行;最后,设计了一个基于观测重构的独立学习网络,使用多头自注意力机制对重构观测信息进行处理,使用一维卷积和GRU层处理观测信息序列,使得智能体能够从观测信息序列中提取出更有效的特征,有效缓解了环境非平稳与部分可观测问题带来的影响。实验结果表明,相较于现有典型的采用独立学习的多智能体强化学习方法,所提方法在性能上有显著提升。
展开更多
关键词
观测重构
多智能体协作策略
多智能体强化学习
独立学习
在线阅读
下载PDF
职称材料
基于意图的多智能体深度强化学习运动规划方法
被引量:
3
2
作者
彭滢璇
史殿习
+2 位作者
杨焕焕
胡浩萌
杨绍武
《计算机科学》
CSCD
北大核心
2023年第10期156-164,共9页
现有的多智能体运动规划任务存在缺乏有效合作方法、通信依赖要求高以及缺乏信息筛选机制等问题。针对这些问题,提出了一种基于意图的多智能体深度强化学习运动规划方法,该方法可以帮助智能体在无需显式通信的条件下无碰撞地到达目标点...
现有的多智能体运动规划任务存在缺乏有效合作方法、通信依赖要求高以及缺乏信息筛选机制等问题。针对这些问题,提出了一种基于意图的多智能体深度强化学习运动规划方法,该方法可以帮助智能体在无需显式通信的条件下无碰撞地到达目标点。首先,将意图概念引入多智能体运动规划问题,将智能体的视觉图像和历史地图相结合以预测智能体的意图,使智能体可以对其他智能体的动作做预判,从而有效协作;其次,设计了一个基于注意力机制的卷积神经网络架构,并利用该网络预测智能体的意图、选择智能体的动作,在筛选出有用的视觉输入信息的同时,减少了多智能体合作对通信的依赖;最后提出了一种基于价值的深度强化学习算法来学习运动规划策略,通过改进目标函数和Q值计算方式使策略更加稳定。在PyBullet仿真平台的6种不同的仿真场景中进行了测试,实验结果表明,相较于其他先进的多智能体运动规划方法,所提方法使多智能体团队的合作效率平均提高了10.74%,具有显著的性能优势。
展开更多
关键词
意图
注意力机制
多智能体系统
运动规划
深度强化学习
在线阅读
下载PDF
职称材料
题名
基于观测重构的多智能体强化学习方法
被引量:
2
1
作者
史殿习
胡浩萌
宋林娜
杨焕焕
欧阳倩滢
谭杰夫
陈莹
机构
智能博弈与决策实验室
国防科技大学计算机学院
天津(滨海)人工智能创新中心
国防科技创新研究院
出处
《计算机科学》
CSCD
北大核心
2024年第4期280-290,共11页
基金
科技部科技创新2030-重大项目(2020AAA0104802)
国家自然科学基金(91948303)。
文摘
共同知识是多智能体系统内众所周知的知识集。如何充分利用共同知识进行策略学习,是多智能体独立学习系统中的一个挑战性问题。针对这一问题,围绕共同知识提取和独立学习网络设计,提出了一种基于观测重构的多智能体强化学习方法IPPO-CKOR。首先,对智能体的观测信息进行共同知识特征的计算与融合,得到融合共同知识特征的观测信息;其次,采用基于共同知识的智能体选择算法,选择关系密切的智能体,并使用重构特征生成机制构建它们的特征信息,其与融合共同知识特征的观测信息组成重构观测信息,用于智能体策略的学习与执行;最后,设计了一个基于观测重构的独立学习网络,使用多头自注意力机制对重构观测信息进行处理,使用一维卷积和GRU层处理观测信息序列,使得智能体能够从观测信息序列中提取出更有效的特征,有效缓解了环境非平稳与部分可观测问题带来的影响。实验结果表明,相较于现有典型的采用独立学习的多智能体强化学习方法,所提方法在性能上有显著提升。
关键词
观测重构
多智能体协作策略
多智能体强化学习
独立学习
Keywords
Observation reconstruction
Multi-agent cooperative strategy
Multi-agent reinforcement learning
Independent learning
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于意图的多智能体深度强化学习运动规划方法
被引量:
3
2
作者
彭滢璇
史殿习
杨焕焕
胡浩萌
杨绍武
机构
国防科技大学计算机学院
军事科学院国防科技创新研究院
天津(滨海)人工智能创新中心
出处
《计算机科学》
CSCD
北大核心
2023年第10期156-164,共9页
基金
国家自然科学基金(91948303)。
文摘
现有的多智能体运动规划任务存在缺乏有效合作方法、通信依赖要求高以及缺乏信息筛选机制等问题。针对这些问题,提出了一种基于意图的多智能体深度强化学习运动规划方法,该方法可以帮助智能体在无需显式通信的条件下无碰撞地到达目标点。首先,将意图概念引入多智能体运动规划问题,将智能体的视觉图像和历史地图相结合以预测智能体的意图,使智能体可以对其他智能体的动作做预判,从而有效协作;其次,设计了一个基于注意力机制的卷积神经网络架构,并利用该网络预测智能体的意图、选择智能体的动作,在筛选出有用的视觉输入信息的同时,减少了多智能体合作对通信的依赖;最后提出了一种基于价值的深度强化学习算法来学习运动规划策略,通过改进目标函数和Q值计算方式使策略更加稳定。在PyBullet仿真平台的6种不同的仿真场景中进行了测试,实验结果表明,相较于其他先进的多智能体运动规划方法,所提方法使多智能体团队的合作效率平均提高了10.74%,具有显著的性能优势。
关键词
意图
注意力机制
多智能体系统
运动规划
深度强化学习
Keywords
Intention
Attention mechanism
Multi-agent system
Motion planning
Deep reinforcement learning
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于观测重构的多智能体强化学习方法
史殿习
胡浩萌
宋林娜
杨焕焕
欧阳倩滢
谭杰夫
陈莹
《计算机科学》
CSCD
北大核心
2024
2
在线阅读
下载PDF
职称材料
2
基于意图的多智能体深度强化学习运动规划方法
彭滢璇
史殿习
杨焕焕
胡浩萌
杨绍武
《计算机科学》
CSCD
北大核心
2023
3
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部