期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
不动点视角下的强化学习算法综述 被引量:3
1
作者 陈兴国 孙丁源昊 +2 位作者 杨光 杨尚东 高阳 《计算机学报》 EI CAS CSCD 北大核心 2023年第6期1246-1271,共26页
近年来,强化学习已成为求解序贯决策任务的范式.然而,在实际应用中,强化学习算法仍存在三个问题:(1)什么解最优?(2)如何保证算法的稳定性?(3)如何加速算法的收敛?本文从不动点视角总结了强化学习算法的设计原理.首先,分析了值函数估计... 近年来,强化学习已成为求解序贯决策任务的范式.然而,在实际应用中,强化学习算法仍存在三个问题:(1)什么解最优?(2)如何保证算法的稳定性?(3)如何加速算法的收敛?本文从不动点视角总结了强化学习算法的设计原理.首先,分析了值函数估计最优解与可行解的构造问题;其次,根据Banach不动点定理和Lyapunov第二判定定理,总结了已有基于值函数强化学习算法的稳定性问题,包括基于表格、线性估计、非线性估计、非参估计等值函数的算法在同策略和异策略情况下的收敛性;然后,从不动点的偏差与方差控制角度,解读了多种提高算法准确性或收敛速度的改进思想;最后总结和展望了强化学习算法的改进方向. 展开更多
关键词 强化学习 值函数估计 稳定性 同策略 异策略 偏差与方差控制
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部