期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
改进MADDPG算法的非凸环境下多智能体自组织协同围捕 被引量:1
1
作者 张红强 石佳航 +5 位作者 吴亮红 王汐 左词立 陈祖国 刘朝华 陈磊 《计算机科学与探索》 CSCD 北大核心 2024年第8期2080-2090,共11页
针对多智能体在非凸环境下的围捕效率问题,提出基于改进经验回放的多智能体强化学习算法。利用残差网络(ResNet)来改善网络退化问题,并与多智能体深度确定性策略梯度算法(MADDPG)相结合,提出了RW-MADDPG算法。为解决多智能体在训练过程... 针对多智能体在非凸环境下的围捕效率问题,提出基于改进经验回放的多智能体强化学习算法。利用残差网络(ResNet)来改善网络退化问题,并与多智能体深度确定性策略梯度算法(MADDPG)相结合,提出了RW-MADDPG算法。为解决多智能体在训练过程中,经验池数据利用率低的问题,提出两种改善经验池数据利用率的方法;为解决多智能体在非凸障碍环境下陷入障碍物内部的情况(如陷入目标不可达等),通过设计合理的围捕奖励函数使得智能体在非凸障碍物环境下完成围捕任务。基于此算法设计仿真实验,实验结果表明,该算法在训练阶段奖励增加得更快,能更快地完成围捕任务,相比MADDPG算法静态围捕环境下训练时间缩短18.5%,动态环境下训练时间缩短49.5%,而且在非凸障碍环境下该算法训练的围捕智能体的全局平均奖励更高。 展开更多
关键词 深度强化学习 rw-maddpg 残差网络 经验池 围捕奖励函数
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部