-
题名基于动作空间划分的MAXQ自动分层方法
- 1
-
-
作者
王奇
秦进
-
机构
贵州大学计算机科学与技术学院
-
出处
《计算机应用》
CSCD
北大核心
2017年第5期1357-1362,共6页
-
基金
国家自然科学基金资助项目(61562009)
贵州大学引进人才科研项目(贵大人基合字(2012)028号)~~
-
文摘
针对分层强化学习需要人工给出层次结构这一问题,同时考虑到基于状态空间的自动分层方法在环境状态中没有明显子目标时分层效果并不理想的情况,提出一种基于动作空间的自动构造层次结构方法。首先,根据动作影响的状态分量将动作集合划分为多个不相交的子集;然后,分析Agent在不同状态下的可用动作,并识别瓶颈动作;最后,由瓶颈动作与执行次序确定动作子集之间的上下层关系,并构造层次结构。此外,对MAXQ方法中子任务的终止条件进行修改,使所提算法构造的层次结构可以通过MAXQ方法找到最优策略。实验结果表明,所提算法可以自动构造层次结构,而不会受环境变化的干扰。与Q学习、Sarsa算法相比,MAXQ方法根据该结构得到最优策略的时间更短,获得回报更高。验证了所提算法能够有效地自动构造MAXQ层次结构,并使寻找最优策略更加高效。
-
关键词
强化学习
分层强化学习
自动分层方法
马尔可夫决策过程
子任务
-
Keywords
reinforcement learning
hierarchical reinforcement learning
automatic hierarchical approach
Markov Decision Process (MDP)
subtask
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-