摘要
为了提高智能体系统中的典型的强化学习——Q-学习的学习速度和收敛速度,使学习过程充分利用环境信息,本文提出了一种基于经验知识的Q-学习算法。该算法利用具有经验知识信息的函数,使智能体在进行无模型学习的同时学习系统模型,避免对环境模型的重复学习,从而加速智能体的学习速度。仿真实验结果表明:该算法使学习过程建立在较好的学习基础上,从而更快地趋近于最优状态,其学习效率和收敛速度明显优于标准的Q-学习。
In order to enhance the study speed and the convergence rate of Q-learning algorithm, an algorithm that based on the experience knowledge about environment is proposed. Based on the experienced information function, the agent can learn the system model and avoid the repeated learning. Compared with the standard Q-leaming, the results showed that the proposed algorithm has faster speed to converge and better performance.
出处
《自动化技术与应用》
2006年第11期10-12,共3页
Techniques of Automation and Applications
关键词
强化学习
Q-学习算法
智能体
经验知识
reinforcement leaming
Q-learning: agent: exoerience knowledge
作者简介
宋清昆(1964-),男,教授,研究生导师,研究方向:人工智能。