期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
深度确定性策略梯度算法优化 被引量:2
1
作者 刘洋 李建军 《辽宁工程技术大学学报(自然科学版)》 CAS 北大核心 2020年第6期545-549,共5页
针对深度确定性策略梯度算法存在的经验利用率不高和性能差的问题,提出一种基于深度确定性策略梯度算法的复合优先经验回放算法.利用样本的立即回报和基于样本时间差分误差分别构建优先级对样本排序,随后对经验进行复合平均排序并基于... 针对深度确定性策略梯度算法存在的经验利用率不高和性能差的问题,提出一种基于深度确定性策略梯度算法的复合优先经验回放算法.利用样本的立即回报和基于样本时间差分误差分别构建优先级对样本排序,随后对经验进行复合平均排序并基于排序优先性机制求得优先级对经验采样,使用得到的样本训练学习网络.在仿真环境中进行的对比实验表明:与深度确定性策略梯度算法和基于时间差分误差的深度确定性策略梯度算法相比,该方法能够减少训练的时间、提高系统的学习能力. 展开更多
关键词 强化学习 深度确定性策略梯度 复合优先经验回放 立即回报 时间差分误差
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部