期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
随机线性二次问题中一类改进的强化学习方法
1
作者
高晋鹏
《科技创新与应用》
2024年第32期142-145,共4页
随机线性二次问题是一类重要且研究较为成熟的随机控制问题。其中,部分信息条件下的随机线性二次问题是指系统的状态方程或代价函数中存在未知系数的情形,该文在前人工作的基础上,改进部分信息条件下线性二次问题的最优控制在线强化学...
随机线性二次问题是一类重要且研究较为成熟的随机控制问题。其中,部分信息条件下的随机线性二次问题是指系统的状态方程或代价函数中存在未知系数的情形,该文在前人工作的基础上,改进部分信息条件下线性二次问题的最优控制在线强化学习算法。所研究系统方程和代价函数的系数都存在未知量,在此条件下,算法通过可观察的样本轨迹和回报函数求得最优控制以及代价函数中的未知系数,进一步地,我们给出迭代过程收敛性与控制稳定性的证明。
展开更多
关键词
随机线性二次问题
部分信息
李雅普诺夫方程
强化学习
动态规划原理
在线阅读
下载PDF
职称材料
由布朗运动和列维过程联合驱动的一个有限期的线性二次最优随机控制问题(英文)
被引量:
1
2
作者
胡世培
贺志民
《应用概率统计》
CSCD
北大核心
2019年第3期275-291,共17页
我们研究了由布朗运动和列维过程联合驱动的线性二次最优随机控制问题.我们利用深刻的截口定理新的仿射随机微分方程存在逆过程.应用拟线性贝尔曼原理和单调迭代收敛方法,我们证明了倒向黎卡提微分方程解的存在性和唯一性.最后,我们证...
我们研究了由布朗运动和列维过程联合驱动的线性二次最优随机控制问题.我们利用深刻的截口定理新的仿射随机微分方程存在逆过程.应用拟线性贝尔曼原理和单调迭代收敛方法,我们证明了倒向黎卡提微分方程解的存在性和唯一性.最后,我们证明了存在一个最优反馈控制且值函数由相应的倒向黎卡提微分方程和相应的伴随方程的初始值合成.
展开更多
关键词
线性
二
次
最优
随机
控制
问题
倒向黎卡提微分方程
列维过程
伴随方程
拟
线性
迭代方法
在线阅读
下载PDF
职称材料
题名
随机线性二次问题中一类改进的强化学习方法
1
作者
高晋鹏
机构
山东大学
出处
《科技创新与应用》
2024年第32期142-145,共4页
文摘
随机线性二次问题是一类重要且研究较为成熟的随机控制问题。其中,部分信息条件下的随机线性二次问题是指系统的状态方程或代价函数中存在未知系数的情形,该文在前人工作的基础上,改进部分信息条件下线性二次问题的最优控制在线强化学习算法。所研究系统方程和代价函数的系数都存在未知量,在此条件下,算法通过可观察的样本轨迹和回报函数求得最优控制以及代价函数中的未知系数,进一步地,我们给出迭代过程收敛性与控制稳定性的证明。
关键词
随机线性二次问题
部分信息
李雅普诺夫方程
强化学习
动态规划原理
Keywords
random linear quadratic problem
partial information
Lyapunov equation
reinforcement learning
dynamic programming principle
分类号
O211.63 [理学—概率论与数理统计]
在线阅读
下载PDF
职称材料
题名
由布朗运动和列维过程联合驱动的一个有限期的线性二次最优随机控制问题(英文)
被引量:
1
2
作者
胡世培
贺志民
机构
浙江农林大学暨阳学院
出处
《应用概率统计》
CSCD
北大核心
2019年第3期275-291,共17页
文摘
我们研究了由布朗运动和列维过程联合驱动的线性二次最优随机控制问题.我们利用深刻的截口定理新的仿射随机微分方程存在逆过程.应用拟线性贝尔曼原理和单调迭代收敛方法,我们证明了倒向黎卡提微分方程解的存在性和唯一性.最后,我们证明了存在一个最优反馈控制且值函数由相应的倒向黎卡提微分方程和相应的伴随方程的初始值合成.
关键词
线性
二
次
最优
随机
控制
问题
倒向黎卡提微分方程
列维过程
伴随方程
拟
线性
迭代方法
Keywords
linear quadratic optimal stochastic control problem
backward Riccati differential equation
Levy processes
adjoint equation
quasilinearization iterative method
分类号
O231.3 [理学—运筹学与控制论]
O211.63 [理学—概率论与数理统计]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
随机线性二次问题中一类改进的强化学习方法
高晋鹏
《科技创新与应用》
2024
0
在线阅读
下载PDF
职称材料
2
由布朗运动和列维过程联合驱动的一个有限期的线性二次最优随机控制问题(英文)
胡世培
贺志民
《应用概率统计》
CSCD
北大核心
2019
1
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部