-
题名一种基于最优策略概率分布的POMDP值迭代算法
被引量:4
- 1
-
-
作者
刘峰
王崇骏
骆斌
-
机构
南京大学软件学院
南京大学软件新技术国家重点实验室
南京大学计算机科学与技术系
-
出处
《电子学报》
EI
CAS
CSCD
北大核心
2016年第5期1078-1084,共7页
-
基金
国家自然科学基金(No.61375069)
江苏省自然科学基金(No.BK20131277)
-
文摘
随着应用中POMDP问题的规模不断扩大,基于最优策略可达区域的启发式方法成为了目前的研究热点.然而目前已有的算法虽然保证了全局最优,但选择最优动作还不够精确,影响了算法的效率.本文提出一种基于最优策略概率的值迭代方法 PBVIOP.该方法在深度优先的启发式探索中,根据各个动作值函数在其上界和下界之间的分布,用蒙特卡罗法计算动作最优的概率,选择概率最大的动作作为最优探索策略.在4个基准问题上的实验结果表明PBVIOP算法能够收敛到全局最优解,并明显提高了收敛效率.
-
关键词
部分可观测马尔科夫决策过程
基于最优策略概率的值迭代算法
蒙特卡罗法
-
Keywords
partially observable Markov decision process (POMDP)
probability-based value iteration on optimal policy(pbviop)
Monte Carlo method
-
分类号
TP319
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于半马氏的无限阶段指数效用最优模型
- 2
-
-
作者
温鲜
霍海峰
-
机构
广西科技大学理学院
-
出处
《应用概率统计》
CSCD
北大核心
2023年第4期577-588,共12页
-
基金
国家自然科学基金项目(批准号:11961005)
广西科技基地与人才专项(批准号:桂科AD21159005)
+1 种基金
广西自然科学基金项目(批准号:2020GXNSFAA297196)
2022年度广西高校中青年教师科研基础能力提升项目(批准号:KY2022KY0342)资助.
-
文摘
本文考虑半马氏决策过程的指数效用最优问题,其中状态和行动空间均为Borel集,报酬函数非负.最优准则是最大化系统无限阶段内获取总报酬指数效用的期望值.首先,建立标准正则性条件确保状态过程非爆炸,连续-紧条件确保最优策略存在.其次,基于这些条件,利用值迭代和嵌入链技术,证明了值函数是相应最优方程的唯一解以及最优策略的存在性.最后,通过实例展示了如何利用值迭代算法计算值函数和最优策略.
-
关键词
半马氏决策过程
指数效用
值迭代
最优方程
最优策略
-
Keywords
semi-Markov decision processes
exponential utility
value iteration algorithm
optimality equation
optimal policy
-
分类号
O211.62
[理学—概率论与数理统计]
-