检索结果-维普期刊中文期刊服务平台

共找到1篇文章

< 1 >

每页显示 20 50 100

已选择0条

导出题录引用分析

统计分析

显示方式：

文摘详细列表

相关度排序被引量排序时效性排序

不动点视角下的强化学习算法综述被引量：3: 1; 作者陈兴国孙丁源昊 +2 位作者杨光杨尚东高阳《计算机学报》 EI CAS CSCD 北大核心 2023年第6期1246-1271,共26页; 近年来,强化学习已成为求解序贯决策任务的范式.然而,在实际应用中,强化学习算法仍存在三个问题:(1)什么解最优?(2)如何保证算法的稳定性?(3)如何加速算法的收敛?本文从不动点视角总结了强化学习算法的设计原理.首先,分析了值函数估计... 展开更多; 关键词强化学习值函数估计稳定性同策略异策略偏差与方差控制; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	不动点视角下的强化学习算法综述	陈兴国孙丁源昊杨光杨尚东高阳	《计算机学报》 EI CAS CSCD 北大核心	2023	3	在线阅读下载PDF 职称材料

已选择0条

导出题录引用分析

统计分析