-
题名基于因素化表示的TD(λ)算法
- 1
-
-
作者
戴帅
殷苌茗
张欣
-
机构
长沙理工大学计算机与通信工程学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2009年第13期190-192,195,共4页
-
基金
湖南省教委基金资助项目(07C083)
-
文摘
提出一种新的基于因素法方法的TD(λ)算法。其基本思想是状态因素化表示,通过动态贝叶斯网络表示Markov决策过程(MDP)中的状态转移概率函数,结合决策树表示TD(λ)算法中的状态值函数,降低状态空间的搜索与计算复杂度,因而适用于求解大状态空间的MDPs问题,实验证明该表示方法是有效的。
-
关键词
因素化表示
动态贝叶斯网络
决策树
td(λ)算法
-
Keywords
factored representation
Dynamic Bayesian Networks(DBNs)
decision tree
algorithm of td(λ)
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于递推最小二乘法的多步时序差分学习算法
被引量:5
- 2
-
-
作者
陈学松
杨宜民
-
机构
广东工业大学应用数学学院
广东工业大学自动化学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2010年第8期52-55,共4页
-
文摘
强化学习是一种重要的机器学习方法。为了提高强化学习过程的收敛速度和减少学习过程值函数估计的误差,提出了基于递推最小二乘法的多步时序差分学习算法(RLS-TD(λ))。证明了在满足一定条件下,该算法的权值将以概率1收敛到唯一解,并且得出和证明了值函数估计值的误差应满足的关系式。迷宫实验表明,与RLS-TD(0)算法相比,该算法能加快学习过程的收敛,与传统的TD(λ)算法相比,该算法减少了值函数估计误差,从而提高了精度。
-
关键词
强化学习
时序差分
最小二乘
收敛
RLS—td(λ)算法
-
Keywords
reinforcement learning
temporal difference
Recursive Least-Squares( RLS )
convergence
RIS-td(λ ) algorithm
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-