期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
平均奖赏MDP的在策略无模型激励学习算法
1
作者 陈焕文 谢丽娟 《计算机工程与科学》 CSCD 2001年第2期66-69,共4页
本文以随机逼近的形式 ,提出了一些用于求解平均奖赏 Markov决策过程系统方程的在策略无模型激励学习算法。这些算法与广泛且成功应用于折扣奖赏 MDP的 SARSA(λ)类算法相似。为比较这些新算法的性能 ,本文还给出了一些初步的实验结果。
关键词 激励学习 MARKOV决策过程 平均奖赏 折扣奖赏 人工智能
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部