-
题名一种新的基于值函数迁移的快速Sarsa算法
被引量:3
- 1
-
-
作者
傅启明
刘全
尤树华
黄蔚
章晓芳
-
机构
苏州大学计算机科学与技术学院
吉林大学符号计算与知识工程教育部重点实验室
-
出处
《电子学报》
EI
CAS
CSCD
北大核心
2014年第11期2157-2161,共5页
-
基金
国家自然科学基金(No.61103045
No.61303108)
+2 种基金
江苏省自然科学基金(No.BK2012616)
江苏省高校自然科学研究项目(No.13KJB520020)
吉林大学符号计算与知识工程教育部重点实验室资助(No.93K17012K04)
-
文摘
知识迁移是当前机器学习领域的一个新的研究热点.其基本思想是通过将经验知识从历史任务到目标任务的迁移,达到提高算法收敛速度和收敛精度的目的.针对当前强化学习领域中经典算法收敛速度慢的问题,提出在学习过程中通过迁移值函数信息,减少算法收敛所需要的样本数量,加快算法的收敛速度.基于强化学习中经典的在策略Sarsa算法的学习框架,结合值函数迁移方法,优化算法初始值函数的设置,提出一种新的基于值函数迁移的快速Sarsa算法——VFT-Sarsa.该算法在执行前期,通过引入自模拟度量方法,在状态空间以及动作空间一致的情况下,对目标任务中的状态与历史任务中的状态之间的距离进行度量,对其中相似并满足一定条件的状态进行值函数迁移,而后再通过学习算法进行学习.将VTF-Sarsa算法用于Random Walk问题,并与经典的Sarsa算法、Q学习算法以及具有较好收敛速度的QV算法进行比较,实验结果表明,该算法在保证收敛精度的基础上,具有更快的收敛速度.
-
关键词
强化学习
VFT-Sarsa算法
自模拟度量
值函数迁移
-
Keywords
reinforcement learning
VFT-Sarsa algorithm
bisimulation melric
value function transfer
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-