期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
一种基于最优策略概率分布的POMDP值迭代算法 被引量:4
1
作者 刘峰 王崇骏 骆斌 《电子学报》 EI CAS CSCD 北大核心 2016年第5期1078-1084,共7页
随着应用中POMDP问题的规模不断扩大,基于最优策略可达区域的启发式方法成为了目前的研究热点.然而目前已有的算法虽然保证了全局最优,但选择最优动作还不够精确,影响了算法的效率.本文提出一种基于最优策略概率的值迭代方法 PBVIOP.该... 随着应用中POMDP问题的规模不断扩大,基于最优策略可达区域的启发式方法成为了目前的研究热点.然而目前已有的算法虽然保证了全局最优,但选择最优动作还不够精确,影响了算法的效率.本文提出一种基于最优策略概率的值迭代方法 PBVIOP.该方法在深度优先的启发式探索中,根据各个动作值函数在其上界和下界之间的分布,用蒙特卡罗法计算动作最优的概率,选择概率最大的动作作为最优探索策略.在4个基准问题上的实验结果表明PBVIOP算法能够收敛到全局最优解,并明显提高了收敛效率. 展开更多
关键词 部分可观测马尔科夫决策过程 基于最优策略概率的值迭代算法 蒙特卡罗法
在线阅读 下载PDF
基于半马氏的无限阶段指数效用最优模型
2
作者 温鲜 霍海峰 《应用概率统计》 CSCD 北大核心 2023年第4期577-588,共12页
本文考虑半马氏决策过程的指数效用最优问题,其中状态和行动空间均为Borel集,报酬函数非负.最优准则是最大化系统无限阶段内获取总报酬指数效用的期望值.首先,建立标准正则性条件确保状态过程非爆炸,连续-紧条件确保最优策略存在.其次,... 本文考虑半马氏决策过程的指数效用最优问题,其中状态和行动空间均为Borel集,报酬函数非负.最优准则是最大化系统无限阶段内获取总报酬指数效用的期望值.首先,建立标准正则性条件确保状态过程非爆炸,连续-紧条件确保最优策略存在.其次,基于这些条件,利用值迭代和嵌入链技术,证明了值函数是相应最优方程的唯一解以及最优策略的存在性.最后,通过实例展示了如何利用值迭代算法计算值函数和最优策略. 展开更多
关键词 半马氏决策过程 指数效用 值迭代 最优方程 最优策略
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部