-
题名一类连续状态与动作空间下的加权Q学习
被引量:1
- 1
-
-
作者
程玉虎
易建强
王雪松
赵冬斌
-
机构
中国矿业大学信息与电气工程学院
中国科学院自动化研究所复杂系统与智能科学实验室
-
出处
《电机与控制学报》
EI
CSCD
北大核心
2005年第6期570-574,共5页
-
基金
中国矿业大学青年科技基金资助(OC4466)
-
文摘
针对连续状态与动作空间下的控制问题,提出了一类连续状态与动作空间下的加权Q学习算法,应用改进的增长神经气算法动态构建径向基网络的隐含层,实现状态空间的自适应构建。在基于径向基网络实现的标准Q学习基础上,利用加权Q学习算法用以解决具有连续动作输出的控制问题。仿真实例验证了所提算法的有效性。
-
关键词
连续状态空间
连续动作空间
加权Q学习
神经气算法
径向基网络
-
Keywords
continuous state space
continuous action space
weighted Q-learning
neural gas algorithm,RBF network
-
分类号
TP273
[自动化与计算机技术—检测技术与自动化装置]
-
-
题名基于高斯回归的连续空间多智能体跟踪学习
被引量:2
- 2
-
-
作者
陈鑫
魏海军
吴敏
曹卫华
-
机构
中南大学信息科学与工程学院
先进控制与智能自动化湖南省工程实验室
-
出处
《自动化学报》
EI
CSCD
北大核心
2013年第12期2021-2031,共11页
-
基金
国家自然科学基金(61074058)资助~~
-
文摘
提高适应性、实现连续空间的泛化、降低维度是实现多智能体强化学习(Multi-agent reinforcement learning,MARL)在连续系统中应用的几个关键.针对上述需求,本文提出连续多智能体系统(Multi-agent systems,MAS)环境下基于模型的智能体跟踪式学习机制和算法(MAS MBRL-CPT).以学习智能体适应同伴策略为出发点,通过定义个体期望即时回报,将智能体对同伴策略的观测融入环境交互效果中,并运用随机逼近实现个体期望即时回报的在线学习.定义降维的Q函数,在降低学习空间维度的同时,建立MAS环境下智能体跟踪式学习的Markov决策过程(Markov decision process,MDP).在运用高斯回归建立状态转移概率模型的基础上,实现泛化样本集Q值函数的在线动态规划求解.基于离散样本集Q函数运用高斯回归建立值函数和策略的泛化模型.MAS MBRL-CPT在连续空间Multi-cart-pole控制系统的仿真实验表明,算法能够使学习智能体在系统动力学模型和同伴策略未知的条件下,实现适应性协作策略的学习,具有学习效率高、泛化能力强等特点.
-
关键词
连续状态空间
多智能体系统
基于模型的强化学习
高斯回归
-
Keywords
Continuous state space, multi-agent systems (MAS), model-based reinforcement learning (MBRL), Gaussianregression (GR)
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名连续空间的递归最小二乘行动者—评论家算法
被引量:2
- 3
-
-
作者
朱文文
金玉净
伏玉琛
宋绪文
-
机构
苏州大学计算机科学与技术学院
-
出处
《计算机应用研究》
CSCD
北大核心
2014年第7期1994-1997,2000,共5页
-
基金
国家自然科学基金资助项目(61070122
61070223
+4 种基金
61373094
60970015)
江苏省自然科学基金资助项目(BK2009116)
江苏省高校自然科学研究项目(09KJA520002)
吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172012K04)
-
文摘
传统的行动者—评论家(actor-critic,AC)算法用在连续空间时,数据利用率低、收敛慢,而现实世界中采样往往需要昂贵的代价,因此提出了一种新的连续空间递归最小二乘AC算法,能够充分利用数据,提高学习预测能力。该方法用高斯径向基函数对连续的状态空间进行编码,评论家部分改用带资格迹的递归最小二乘时间差分方法,而行动者部分用策略梯度方法,在连续动作空间中进行策略搜索。Mountain Car问题的仿真结果表明该算法具有较好的收敛结果。
-
关键词
强化学习
行动者—评论家方法
连续状态动作空间
递归最小二乘
策略梯度
高斯径向基函数
-
Keywords
reinforcement learning
actor-critic method
continuous state and action space
recursive least-squares
policy gradient
Gaussian radial basis functions
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名基于凸多面体抽象域的自适应强化学习技术研究
被引量:5
- 4
-
-
作者
陈冬火
刘全
朱斐
金海东
-
机构
苏州大学计算机科学与技术学院
符号计算与知识工程教育部重点实验室(吉林大学)
-
出处
《计算机学报》
EI
CSCD
北大核心
2018年第1期112-131,共20页
-
基金
国家自然科学基金项目(61272005
61303108
+10 种基金
61373094
61472262
61502323
61502329)
江苏省自然科学基金项目(BK2012616)
江苏省高校自然科学研究项目(13KJB520020)
吉林大学符号计算与知识工程教育部重点实验室项目(93K172014K04)
苏州市应用基础研究计划项目(SYG201422)
苏州大学高校省级重点实验室基金项目(KJS1524)
中国国家留学基金项目(201606920013)
浙江省自然科学基金(LY16F010019)资助~~
-
文摘
表格驱动的算法是解决强化学习问题的一类重要方法,但由于"维数灾"现象的存在,这种方法不能直接应用于解决具有连续状态空间的强化学习问题.解决维数灾问题的方法主要包括两种:状态空间的离散化和函数近似方法.相比函数近似,基于连续状态空间离散化的表格驱动方法具有原理直观、程序结构简单和计算轻量化的特点.基于连续状态空间离散化方法的关键是发现合适的状态空间离散化机制,平衡计算量及准确性,并且确保基于离散抽象状态空间的数值性度量,例如V值函数和Q值函数,可以较为准确地对原始强化学习问题进行策略评估和最优策略π*计算.文中提出一种基于凸多面体抽象域的自适应状态空间离散化方法,实现自适应的基于凸多面体抽象域的Q(λ)强化学习算法(Adaptive Polyhedra Domain based Q(λ),APDQ(λ)).凸多面体是一种抽象状态的表达方法,广泛应用于各种随机系统性能评估和程序数值性属性的验证.这种方法通过抽象函数,建立具体状态空间至多面体域的抽象状态空间的映射,把连续状态空间最优策略的计算问题转化为有限大小的和易于处理的抽象状态空间最优策略的计算问题.根据与抽象状态相关的样本集信息,设计了包括BoxRefinement、LFRefinement和MVLFRefinement多种自适应精化机制.依据这些精化机制,对抽象状态空间持续进行适应性精化,从而优化具体状态空间的离散化机制,产生符合在线抽样样本空间所蕴涵的统计奖赏模型.基于多面体专业计算库PPL(Parma Polyhedra Library)和高精度数值计算库GMP(GNU Multiple Precision)实现了算法APDQ(λ),并实施了实例研究.选择典型的连续状态空间强化学习问题山地车(Mountain Car,MC)和杂技机器人(Acrobatic robot,Acrobot)作为实验对象,详细评估了各种强化学习参数和自适应精化相关的阈值参数对APDQ(λ)性能的影响,探究了抽象状态空间动态变化情况下各种参数在策略优化过程中的作用机理.实验结果显示当折扣率γ大于0.7时,算法展现出较好的综合性能,在初期,策略都快速地改进,后面的阶段平缓地趋向收敛(如图6~图13所示),并且对学习率α和各种抽象状态空间精化参数都具有较好的适应性;当折扣率γ小于0.6时,算法的性能衰退较快.抽象解释技术用于统计学习过程是一种较好的解决连续强化学习问题的思想,有许多问题值得进一步研究和探讨,例如基于近似模型的采样和值函数更新等问题.
-
关键词
强化学习
凸多面体抽象域
连续状态空间
Q(λ)
自适应精化
-
Keywords
reinforcement learning
convex polyhedra abstraction domain
continuous states pace
Q(λ)
adaptive refinement
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于最小二乘策略迭代的无人机航迹规划方法
被引量:7
- 5
-
-
作者
陈晓倩
刘瑞祥
-
机构
北京联合大学智慧城市学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2020年第1期191-195,共5页
-
基金
英国皇家工程院牛顿基金(No.UK-CIAPP\324)
北京联合大学研究生资助项目
-
文摘
针对传统强化学习方法因对状态空间进行离散化而无法保证无人机在复杂应用场景中航迹精度的问题,使用最小二乘策略迭代(Least-Squares Policy Iteration,LSPI)算法开展连续状态航迹规划问题研究。该算法采用带参线性函数逼近器近似表示动作值函数,无需进行空间离散化,提高了航迹精度,并基于样本数据离线计算策略,直接对策略进行评价和改进。与Q学习算法的对比仿真实验结果表明LSPI算法规划出的三维航迹更为平滑,有利于飞机实际飞行。
-
关键词
无人机
航迹规划
强化学习
最小二乘法
Q学习
连续状态空间
-
Keywords
unmanned aerial vehicle
route planning
reinforcement learning
least squares method
Q-learning
continuous state spaces
-
分类号
TP293
[自动化与计算机技术—检测技术与自动化装置]
-