摘要
回顾了基于回报函数逼近的学徒学习的发展历史,介绍了目前的主要工作,总结了学徒学习的一般方法,讨论了线性和非线性假设条件下的回报函数求解,比较了逆向增强学习(IRL)和边际最大化(MMP)两类逼近方法.基于IRL的学徒学习是一种通过迭代的方法用基回报函数的线性组合来逼近真实回报函数的过程.MMP方法可以看作是一类基于梯度下降的最优化方法.综合采用滤波及将策略函数概率化等方法可以降低对专家演示的最优要求.最后指出了该领域存在的问题,提出了未来的研究方向,如在部分可观察马尔可夫决策过程框架下的学徒学习及对不确定策略的学习等.
This paper surveys reward function approximating based apprenticeship learning.Both the historical basis and a broad selection of current work are summarized.Two kinds of well-known frameworks,inverse reinforcement learning(IRL) and maximum margin planning(MMP),are discussed under the assumptions of both linear and nonlinear reward function.IRL based learning is an iterative process of approaching ideal reward function using linear combination of basis functions,MMP is a set of gradient-based algorithms for...
出处
《华中科技大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2008年第S1期288-290,294,共4页
Journal of Huazhong University of Science and Technology(Natural Science Edition)
基金
浙江省科技厅重大项目(2006c13096)
关键词
学徒学习
回报函数
综述
逆向增强学习
边际最大化
apprenticeship learning
reward function
survey
inverse reinforcement learning
maximum margin planning