检索结果-维普期刊中文期刊服务平台

共找到1篇文章

< 1 >

每页显示 20 50 100

已选择0条

导出题录引用分析

统计分析

显示方式：

文摘详细列表

相关度排序被引量排序时效性排序

深度确定性策略梯度算法优化被引量：2: 1; 作者刘洋李建军《辽宁工程技术大学学报（自然科学版）》 CAS 北大核心 2020年第6期545-549,共5页; 针对深度确定性策略梯度算法存在的经验利用率不高和性能差的问题,提出一种基于深度确定性策略梯度算法的复合优先经验回放算法.利用样本的立即回报和基于样本时间差分误差分别构建优先级对样本排序,随后对经验进行复合平均排序并基于... 展开更多; 关键词强化学习深度确定性策略梯度复合优先经验回放立即回报时间差分误差; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	深度确定性策略梯度算法优化	刘洋李建军	《辽宁工程技术大学学报（自然科学版）》 CAS 北大核心	2020	2	在线阅读下载PDF 职称材料

已选择0条

导出题录引用分析

统计分析