期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于样本效率优化的深度强化学习方法综述 被引量:13
1
作者 张峻伟 吕帅 +2 位作者 张正昊 于佳玉 龚晓宇 《软件学报》 EI CSCD 北大核心 2022年第11期4217-4238,共22页
深度强化学习将深度学习的表示能力和强化学习的决策能力结合,因在复杂控制任务中效果显著而掀起研究热潮.以是否用Bellman方程为基准,将无模型深度强化学习方法分为Q值函数方法和策略梯度方法,并从模型构建方式、优化历程和方法评估等... 深度强化学习将深度学习的表示能力和强化学习的决策能力结合,因在复杂控制任务中效果显著而掀起研究热潮.以是否用Bellman方程为基准,将无模型深度强化学习方法分为Q值函数方法和策略梯度方法,并从模型构建方式、优化历程和方法评估等方面对两类方法分别进行了介绍.针对深度强化学习方法中样本效率低的问题进行讨论,根据两类方法的模型特性,说明了Q值函数方法过高估计问题和策略梯度方法采样无偏性约束分别是两类方法样本效率受限的主要原因.从增强探索效率和提高样本利用率两个角度,根据近年来的研究热点和趋势归纳出各类可行的优化方法,分析相关方法的优势和仍存在的问题,并对比其适用范围和优化效果.最后提出增强样本效率优化方法的通用性、探究两类方法间优化机制的迁移和提高理论完备性作为未来的研究方向. 展开更多
关键词 深度强化学习 Q值函数方法 策略梯度方法 样本效率 探索与利用
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部