期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
数学规划在函数值估计中的一个应用
1
作者 黄宗文 《广西大学学报(自然科学版)》 CAS CSCD 2002年第1期71-74,共4页
利用数学规划方法 ,对函数值进行估计 ,由简单具体的求函数值范围的例子出发 ,并把问题深化。
关键词 数学规划 函数值估计 线性函数 线性规划 范围 目标函数 图解法
在线阅读 下载PDF
不动点视角下的强化学习算法综述 被引量:3
2
作者 陈兴国 孙丁源昊 +2 位作者 杨光 杨尚东 高阳 《计算机学报》 EI CAS CSCD 北大核心 2023年第6期1246-1271,共26页
近年来,强化学习已成为求解序贯决策任务的范式.然而,在实际应用中,强化学习算法仍存在三个问题:(1)什么解最优?(2)如何保证算法的稳定性?(3)如何加速算法的收敛?本文从不动点视角总结了强化学习算法的设计原理.首先,分析了值函数估计... 近年来,强化学习已成为求解序贯决策任务的范式.然而,在实际应用中,强化学习算法仍存在三个问题:(1)什么解最优?(2)如何保证算法的稳定性?(3)如何加速算法的收敛?本文从不动点视角总结了强化学习算法的设计原理.首先,分析了值函数估计最优解与可行解的构造问题;其次,根据Banach不动点定理和Lyapunov第二判定定理,总结了已有基于值函数强化学习算法的稳定性问题,包括基于表格、线性估计、非线性估计、非参估计等值函数的算法在同策略和异策略情况下的收敛性;然后,从不动点的偏差与方差控制角度,解读了多种提高算法准确性或收敛速度的改进思想;最后总结和展望了强化学习算法的改进方向. 展开更多
关键词 强化学习 函数估计 稳定性 同策略 异策略 偏差与方差控制
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部