-
题名数学规划在函数值估计中的一个应用
- 1
-
-
作者
黄宗文
-
机构
玉林师范学院数学系
-
出处
《广西大学学报(自然科学版)》
CAS
CSCD
2002年第1期71-74,共4页
-
文摘
利用数学规划方法 ,对函数值进行估计 ,由简单具体的求函数值范围的例子出发 ,并把问题深化。
-
关键词
数学规划
函数值估计
线性函数
线性规划
取值范围
目标函数
图解法
-
Keywords
linear function
linear programoming
function value
-
分类号
O221
[理学—运筹学与控制论]
O174
[理学—基础数学]
-
-
题名不动点视角下的强化学习算法综述
被引量:3
- 2
-
-
作者
陈兴国
孙丁源昊
杨光
杨尚东
高阳
-
机构
南京邮电大学大数据安全与智能处理重点实验室
南京大学计算机软件新技术国家重点实验室
南京大学深圳研究院
-
出处
《计算机学报》
EI
CAS
CSCD
北大核心
2023年第6期1246-1271,共26页
-
基金
国家自然科学基金(62276142,62206133,62202240,62192783)
科技创新2030-“新一代人工智能”重大项目(2018AAA0100905)
+1 种基金
江苏省产业前瞻与关键核心技术竞争项目(BE2021028)
深圳市中央引导地方科技发展资金(2021Szvup056)资助。
-
文摘
近年来,强化学习已成为求解序贯决策任务的范式.然而,在实际应用中,强化学习算法仍存在三个问题:(1)什么解最优?(2)如何保证算法的稳定性?(3)如何加速算法的收敛?本文从不动点视角总结了强化学习算法的设计原理.首先,分析了值函数估计最优解与可行解的构造问题;其次,根据Banach不动点定理和Lyapunov第二判定定理,总结了已有基于值函数强化学习算法的稳定性问题,包括基于表格、线性估计、非线性估计、非参估计等值函数的算法在同策略和异策略情况下的收敛性;然后,从不动点的偏差与方差控制角度,解读了多种提高算法准确性或收敛速度的改进思想;最后总结和展望了强化学习算法的改进方向.
-
关键词
强化学习
值函数估计
稳定性
同策略
异策略
偏差与方差控制
-
Keywords
reinforcement learning
value function approximation
stability
on-policy
off-policy
bias and variance control
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-