期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于多重指数移动平均评估的DDPG算法 被引量:1
1
作者 范晶晶 陈建平 +2 位作者 傅启明 陆悠 吴宏杰 《计算机工程与设计》 北大核心 2021年第11期3084-3090,共7页
针对深度确定性策略梯度算法中双网络结构的不稳定及单评论家评估不准确的问题,提出基于多重指数移动平均评估的DDPG算法。介绍EMA-Q网络和目标Q网络合作得出目标更新值,对多个评论家给出的Q值求平均,降低单评论家评估的不准确性。样本... 针对深度确定性策略梯度算法中双网络结构的不稳定及单评论家评估不准确的问题,提出基于多重指数移动平均评估的DDPG算法。介绍EMA-Q网络和目标Q网络合作得出目标更新值,对多个评论家给出的Q值求平均,降低单评论家评估的不准确性。样本池部分引入双重经验回放方法,采用两个样本池分别存储不同的经验,提高算法的收敛性能。将所提算法及原始DDPG算法分别实验于经典的Pendulum问题和Mountain Car问题中。实验结果表明,与传统的DDPG算法相比,所提算法准确性更好,稳定性更高,收敛速度明显提升。 展开更多
关键词 深度学习 强化学习 指数移动平均 平均评估 双重经验回放
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部