期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于因素化表示的TD(λ)算法
1
作者 戴帅 殷苌茗 张欣 《计算机工程》 CAS CSCD 北大核心 2009年第13期190-192,195,共4页
提出一种新的基于因素法方法的TD(λ)算法。其基本思想是状态因素化表示,通过动态贝叶斯网络表示Markov决策过程(MDP)中的状态转移概率函数,结合决策树表示TD(λ)算法中的状态值函数,降低状态空间的搜索与计算复杂度,因而适用于求解大... 提出一种新的基于因素法方法的TD(λ)算法。其基本思想是状态因素化表示,通过动态贝叶斯网络表示Markov决策过程(MDP)中的状态转移概率函数,结合决策树表示TD(λ)算法中的状态值函数,降低状态空间的搜索与计算复杂度,因而适用于求解大状态空间的MDPs问题,实验证明该表示方法是有效的。 展开更多
关键词 因素化表示 动态贝叶斯网络 决策树 td(λ)算法
在线阅读 下载PDF
基于递推最小二乘法的多步时序差分学习算法 被引量:5
2
作者 陈学松 杨宜民 《计算机工程与应用》 CSCD 北大核心 2010年第8期52-55,共4页
强化学习是一种重要的机器学习方法。为了提高强化学习过程的收敛速度和减少学习过程值函数估计的误差,提出了基于递推最小二乘法的多步时序差分学习算法(RLS-TD(λ))。证明了在满足一定条件下,该算法的权值将以概率1收敛到唯一解,并且... 强化学习是一种重要的机器学习方法。为了提高强化学习过程的收敛速度和减少学习过程值函数估计的误差,提出了基于递推最小二乘法的多步时序差分学习算法(RLS-TD(λ))。证明了在满足一定条件下,该算法的权值将以概率1收敛到唯一解,并且得出和证明了值函数估计值的误差应满足的关系式。迷宫实验表明,与RLS-TD(0)算法相比,该算法能加快学习过程的收敛,与传统的TD(λ)算法相比,该算法减少了值函数估计误差,从而提高了精度。 展开更多
关键词 强化学习 时序差分 最小二乘 收敛 RLS—td(λ)算法
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部