期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
改进MADDPG算法的未知环境下多智能体单目标协同探索
1
作者 韩慧妍 石树熙 +2 位作者 况立群 韩燮 熊风光 《计算机工程与应用》 2025年第22期320-328,共9页
针对多智能体深度确定性策略梯度算法(multi-agent deep deterministic policy gradient,MADDPG)在未知环境下探索效率低下的问题,提出多智能体深度强化学习算法RE-MADDPG-C。利用残差网络(residual network,ResNet)缓解网络中的梯度消... 针对多智能体深度确定性策略梯度算法(multi-agent deep deterministic policy gradient,MADDPG)在未知环境下探索效率低下的问题,提出多智能体深度强化学习算法RE-MADDPG-C。利用残差网络(residual network,ResNet)缓解网络中的梯度消失和梯度爆炸问题,提高算法的收敛速度。为解决未知环境下单目标探索中奖励稀疏导致的收敛困难问题,引入多智能体内在好奇心模块(intrinsic curiosity module,ICM),将好奇心奖励作为智能体的内在奖励,为其提供额外的探索动机。通过设计合理的探索奖励函数,使得多智能体能够在未知环境下完成单目标探索任务。仿真实验结果表明,该算法在训练阶段获得的奖励提升更快,能够快速完成探索任务,相比MADDPG及其他算法训练时间缩短,且获得的全局平均奖励更高。 展开更多
关键词 深度强化学习 RE-MADDPG-C 残差网络 内在好奇心模块(icm) 奖励稀疏
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部