-
题名增强Q学习在非确定马尔可夫系统寻优问题中的应用
被引量:4
- 1
-
-
作者
郭锐
彭军
吴敏
-
机构
中南大学信息科学与工程学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2005年第13期36-38,146,共4页
-
基金
国家863高技术研究发展计划项目(编号:2001AA4422200)
-
文摘
增强学习属于机器学习的一种,它通过与环境的交互获得策略的改进,其在线学习和自适应学习的特点使其成为解决策略寻优问题有力的工具。多智能体系统是人工智能领域的一个研究热点,对于多智能体学习技术的研究需要建立在系统环境模型的基础之上,由于多个智能体的存在,智能体之间的相互影响使得多智能体系统高度复杂,多智能体系统环境属于非确定马尔可夫模型,因此直接把基于马尔可夫模型的增强学习技术引入多智能体系统是不合适的。论文基于智能体间独立的学习机制,提出了一种改进的多智能体Q学习算法,使其适用于非确定马尔可夫环境,并对该学习技术在多智能体系统RoboCup中的应用进行了研究,实验证明了该学习技术的有效性与泛化能力,最后简要给出了多智能体增强学习研究的方向及进一步的工作。
-
关键词
多智能体
增强学习
非确定马尔可夫系统
策略寻优
-
Keywords
Multi-Agent Systems,reinforcement learning,nondeterministic MDPs,optimal policy finding
-
分类号
TP24
[自动化与计算机技术—检测技术与自动化装置]
-