-
题名基于多重指数移动平均评估的DDPG算法
被引量:1
- 1
-
-
作者
范晶晶
陈建平
傅启明
陆悠
吴宏杰
-
机构
苏州科技大学电子与信息工程学院
苏州科技大学江苏省建筑智慧节能重点实验室
苏州科技大学苏州市移动网络技术与应用重点实验室
苏州科技大学苏州市虚拟现实智能交互及应用技术重点实验室
珠海米枣智能科技有限公司科研部
-
出处
《计算机工程与设计》
北大核心
2021年第11期3084-3090,共7页
-
基金
国家自然科学基金项目(61876217、61876121、61772357、61750110519、61772355、61702055、61672371)
江苏省重点研发计划基金项目(BE2017663)。
-
文摘
针对深度确定性策略梯度算法中双网络结构的不稳定及单评论家评估不准确的问题,提出基于多重指数移动平均评估的DDPG算法。介绍EMA-Q网络和目标Q网络合作得出目标更新值,对多个评论家给出的Q值求平均,降低单评论家评估的不准确性。样本池部分引入双重经验回放方法,采用两个样本池分别存储不同的经验,提高算法的收敛性能。将所提算法及原始DDPG算法分别实验于经典的Pendulum问题和Mountain Car问题中。实验结果表明,与传统的DDPG算法相比,所提算法准确性更好,稳定性更高,收敛速度明显提升。
-
关键词
深度学习
强化学习
指数移动平均
平均评估
双重经验回放
-
Keywords
deep learning
reinforcement learning
exponential moving average
average evaluation
double experience replay
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-