-
题名一种权重平均值的深度双Q网络方法
被引量:6
- 1
-
-
作者
吴金金
刘全
陈松
闫岩
-
机构
苏州大学计算机科学与技术学院
符号计算与知识工程教育部重点实验室(吉林大学)
江苏省计算机信息处理技术重点实验室(苏州大学)
软件新技术与产业化协同创新中心(南京大学)
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2020年第3期576-589,共14页
-
基金
国家自然科学基金项目(61772355,61702055,61502323,61502329)
江苏省高等学校自然科学研究重大项目(18KJA520011,17KJA520004)
+2 种基金
吉林大学符号计算与知识工程教育部重点实验室项目(93K172014K04,93K172017K18)
苏州市应用基础研究计划工业项目(SYG201422)
江苏高校优势学科建设工程资助项目~~
-
文摘
深度强化学习算法的不稳定性和可变性对其性能有重要的影响.深度Q网络模型在处理需要感知高维输入数据的决策控制任务中性能良好.然而,深度Q网络存在着高估动作值使agent性能变差的问题.尽管深度双Q网络能够缓解高估带来的影响,但是仍然存在低估动作值的问题.在一些复杂的强化学习环境中,即使是很小的估计误差也会对学习到的策略产生很大影响.为了解决深度Q网络中高估动作值和深度双Q网络中低估动作值的问题,提出一种基于权重平均值的深度双Q网络方法(averaged weighted double deep Q-network,AWDDQN),该方法将带权重的双估计器整合到深度双Q网络中.为了进一步地减少目标值的估计误差,通过计算之前学习到的动作估计值的平均值来产生目标值,并且根据时间差分误差动态地确定平均动作值的数量.实验结果表明:AWDDQN方法可以有效减少估计偏差,并且能够提升agent在部分Atari 2600游戏中的表现.
-
关键词
深度强化学习
深度Q网络
估计误差
权重双估计器
时间差分
-
Keywords
deep reinforcement learning
deep Q-network
estimation error
weighted double estimator
temporal difference
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
-