期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
可数状态空间的平均成本马氏决策过程
1
作者 张俊玉 吴怡婷 +1 位作者 夏俐 曹希仁 《控制理论与应用》 EI CAS CSCD 北大核心 2021年第11期1707-1716,共10页
具有可数状态空间的马尔可夫决策过程(Markov decision process,MDP)在平均准则下,最优(平稳)策略不一定存在.本文研究平均准则可数状态MDP中满足最优不等式的最优策略.不同于消去折扣(因子)方法,利用离散的Dynkin公式推导本文的主要结... 具有可数状态空间的马尔可夫决策过程(Markov decision process,MDP)在平均准则下,最优(平稳)策略不一定存在.本文研究平均准则可数状态MDP中满足最优不等式的最优策略.不同于消去折扣(因子)方法,利用离散的Dynkin公式推导本文的主要结果.首先给出遍历马氏链的泊松方程和两个零常返马氏链的例子,证明了满足两个方向相反的最优不等式的最优策略存在性.其次,通过两个比较引理和性能差分公式,证明了正常返链和多链最优策略的存在性,并进一步推广到其他情形.特别地,本文通过几个应用举例,说明平均准则性能敏感的本质.本文的结果完善了可数状态MDP在平均准则下的最优不等式的理论. 展开更多
关键词 马尔可夫决策过程 平均准则 可数状态空间 Dynkin公式 泊松方程 性能敏感
在线阅读 下载PDF
可数状态空间的马氏过程的小参数大偏差估计
2
作者 胡亦钧 《数学年刊(A辑)》 CSCD 北大核心 1995年第1期1-7,共7页
设X={Xt;t≥0}是取值于可列状态空间的马氏过程.本文讨论了Xε={Xεt;t∈[0,1]当O时的大偏差性质,其速率函数由马氏过程的跳跃次数所决定.
关键词 马氏过程 大偏差估计 扩散过程 可数状态空间
在线阅读 下载PDF
带有无界赔付函数的非零和随机对策折扣模型
3
作者 杨洁 郭先平 《中山大学学报(自然科学版)》 CAS CSCD 北大核心 2008年第5期23-27,36,共6页
讨论了赔付函数可能既无上界又无下界的离散时间可数状态非零和随机对策的折扣模型。在零和随机对策中常用的"漂移"和"连续-紧"性条件下,用Fan's不动点定理证明了Nash平衡点的存在性。
关键词 非零和随机对策 期望折扣赔付准则 NASH平衡点 可数状态空间
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部