期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
实时动态规划的最优行动判据及算法改进
被引量:
8
1
作者
范长杰
陈小平
《软件学报》
EI
CSCD
北大核心
2008年第11期2869-2878,共10页
主要以提高求解马尔可夫决策问题的实时动态规划(real-time dynamic programming,简称RTDP)算法的效率为目的.对几类典型的实时动态规划算法所使用的收敛判据进行了对比分析,并利用值函数上界、下界给出了称为最优行动判据的收敛判据,...
主要以提高求解马尔可夫决策问题的实时动态规划(real-time dynamic programming,简称RTDP)算法的效率为目的.对几类典型的实时动态规划算法所使用的收敛判据进行了对比分析,并利用值函数上界、下界给出了称为最优行动判据的收敛判据,以及一个更适合实时算法的分支选择策略.最优行动判据可以更早地标定当前状态满足精度要求的最优行动供立即执行,而新的分支选择策略可以加快这一判据的满足.据此设计了一种有界增量实时动态规划(bounded incremental RTDP,简称BI-RTDP)算法.在两种典型仿真实时环境的实验中,BI-RTDP均显示出优于现有相关算法的实时性能.
展开更多
关键词
马尔可夫决策过程
实时动态规划
收敛判据
增量求解
启发式搜索
在线阅读
下载PDF
职称材料
题名
实时动态规划的最优行动判据及算法改进
被引量:
8
1
作者
范长杰
陈小平
机构
中国科学技术大学计算机科学与技术系
出处
《软件学报》
EI
CSCD
北大核心
2008年第11期2869-2878,共10页
基金
Supported by the National Natural Science Foundation ofChina under Grant No.60745002(国家自然科学基金)
the National Basic Research Program of China under No.2003CB317002(国家重点基础研究发展计划(973))
文摘
主要以提高求解马尔可夫决策问题的实时动态规划(real-time dynamic programming,简称RTDP)算法的效率为目的.对几类典型的实时动态规划算法所使用的收敛判据进行了对比分析,并利用值函数上界、下界给出了称为最优行动判据的收敛判据,以及一个更适合实时算法的分支选择策略.最优行动判据可以更早地标定当前状态满足精度要求的最优行动供立即执行,而新的分支选择策略可以加快这一判据的满足.据此设计了一种有界增量实时动态规划(bounded incremental RTDP,简称BI-RTDP)算法.在两种典型仿真实时环境的实验中,BI-RTDP均显示出优于现有相关算法的实时性能.
关键词
马尔可夫决策过程
实时动态规划
收敛判据
增量求解
启发式搜索
Keywords
MDP (Markov decision process)
rtdp (real-time dynamic programming)
convergence criterion
incremental solving
heuristic search
分类号
TP301 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
实时动态规划的最优行动判据及算法改进
范长杰
陈小平
《软件学报》
EI
CSCD
北大核心
2008
8
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部