期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
平均奖赏MDP的在策略无模型激励学习算法
1
作者
陈焕文
谢丽娟
《计算机工程与科学》
CSCD
2001年第2期66-69,共4页
本文以随机逼近的形式 ,提出了一些用于求解平均奖赏 Markov决策过程系统方程的在策略无模型激励学习算法。这些算法与广泛且成功应用于折扣奖赏 MDP的 SARSA(λ)类算法相似。为比较这些新算法的性能 ,本文还给出了一些初步的实验结果。
关键词
激励学习
MARKOV决策过程
平均奖赏
折扣奖赏
人工智能
在线阅读
下载PDF
职称材料
题名
平均奖赏MDP的在策略无模型激励学习算法
1
作者
陈焕文
谢丽娟
机构
长沙电子学院数学与计算机系
出处
《计算机工程与科学》
CSCD
2001年第2期66-69,共4页
文摘
本文以随机逼近的形式 ,提出了一些用于求解平均奖赏 Markov决策过程系统方程的在策略无模型激励学习算法。这些算法与广泛且成功应用于折扣奖赏 MDP的 SARSA(λ)类算法相似。为比较这些新算法的性能 ,本文还给出了一些初步的实验结果。
关键词
激励学习
MARKOV决策过程
平均奖赏
折扣奖赏
人工智能
Keywords
reinforcement learning
Markov decision process(MDP)
average payoff
discounted payoff
dynamic programming(DP)
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
平均奖赏MDP的在策略无模型激励学习算法
陈焕文
谢丽娟
《计算机工程与科学》
CSCD
2001
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部