期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
改进MADDPG算法的非凸环境下多智能体自组织协同围捕
被引量:
1
1
作者
张红强
石佳航
+5 位作者
吴亮红
王汐
左词立
陈祖国
刘朝华
陈磊
《计算机科学与探索》
CSCD
北大核心
2024年第8期2080-2090,共11页
针对多智能体在非凸环境下的围捕效率问题,提出基于改进经验回放的多智能体强化学习算法。利用残差网络(ResNet)来改善网络退化问题,并与多智能体深度确定性策略梯度算法(MADDPG)相结合,提出了RW-MADDPG算法。为解决多智能体在训练过程...
针对多智能体在非凸环境下的围捕效率问题,提出基于改进经验回放的多智能体强化学习算法。利用残差网络(ResNet)来改善网络退化问题,并与多智能体深度确定性策略梯度算法(MADDPG)相结合,提出了RW-MADDPG算法。为解决多智能体在训练过程中,经验池数据利用率低的问题,提出两种改善经验池数据利用率的方法;为解决多智能体在非凸障碍环境下陷入障碍物内部的情况(如陷入目标不可达等),通过设计合理的围捕奖励函数使得智能体在非凸障碍物环境下完成围捕任务。基于此算法设计仿真实验,实验结果表明,该算法在训练阶段奖励增加得更快,能更快地完成围捕任务,相比MADDPG算法静态围捕环境下训练时间缩短18.5%,动态环境下训练时间缩短49.5%,而且在非凸障碍环境下该算法训练的围捕智能体的全局平均奖励更高。
展开更多
关键词
深度强化学习
rw-maddpg
残差网络
经验池
围捕奖励函数
在线阅读
下载PDF
职称材料
题名
改进MADDPG算法的非凸环境下多智能体自组织协同围捕
被引量:
1
1
作者
张红强
石佳航
吴亮红
王汐
左词立
陈祖国
刘朝华
陈磊
机构
湖南科技大学信息与电气工程学院
出处
《计算机科学与探索》
CSCD
北大核心
2024年第8期2080-2090,共11页
基金
国家自然科学基金(52104192,62271199)
湖南省自然科学基金(2021JJ30280,2022JJ30265)
+2 种基金
湖南省教育厅重点项目(23A0382)
湖南省教育厅优秀青年项目(22B0476,21B0456)
湖南省科技托举工程青年英才项目(2022TJ-Q03)。
文摘
针对多智能体在非凸环境下的围捕效率问题,提出基于改进经验回放的多智能体强化学习算法。利用残差网络(ResNet)来改善网络退化问题,并与多智能体深度确定性策略梯度算法(MADDPG)相结合,提出了RW-MADDPG算法。为解决多智能体在训练过程中,经验池数据利用率低的问题,提出两种改善经验池数据利用率的方法;为解决多智能体在非凸障碍环境下陷入障碍物内部的情况(如陷入目标不可达等),通过设计合理的围捕奖励函数使得智能体在非凸障碍物环境下完成围捕任务。基于此算法设计仿真实验,实验结果表明,该算法在训练阶段奖励增加得更快,能更快地完成围捕任务,相比MADDPG算法静态围捕环境下训练时间缩短18.5%,动态环境下训练时间缩短49.5%,而且在非凸障碍环境下该算法训练的围捕智能体的全局平均奖励更高。
关键词
深度强化学习
rw-maddpg
残差网络
经验池
围捕奖励函数
Keywords
deep reinforcement learning
rw-maddpg
residual network
experience pool
rounding reward function
分类号
TP301 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
改进MADDPG算法的非凸环境下多智能体自组织协同围捕
张红强
石佳航
吴亮红
王汐
左词立
陈祖国
刘朝华
陈磊
《计算机科学与探索》
CSCD
北大核心
2024
1
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部