检索结果-维普期刊中文期刊服务平台

一类连续状态与动作空间下的加权Q学习被引量：1: 1; 作者程玉虎易建强 +1 位作者王雪松赵冬斌《电机与控制学报》 EI CSCD 北大核心 2005年第6期570-574,共5页; 针对连续状态与动作空间下的控制问题,提出了一类连续状态与动作空间下的加权Q学习算法,应用改进的增长神经气算法动态构建径向基网络的隐含层,实现状态空间的自适应构建。在基于径向基网络实现的标准Q学习基础上,利用加权Q学习算法用... 展开更多; 关键词连续状态空间连续动作空间加权Q学习神经气算法径向基网络; 在线阅读下载PDF 职称材料

基于高斯回归的连续空间多智能体跟踪学习被引量：2: 2; 作者陈鑫魏海军 +1 位作者吴敏曹卫华《自动化学报》 EI CSCD 北大核心 2013年第12期2021-2031,共11页; 提高适应性、实现连续空间的泛化、降低维度是实现多智能体强化学习(Multi-agent reinforcement learning,MARL)在连续系统中应用的几个关键.针对上述需求,本文提出连续多智能体系统(Multi-agent systems,MAS)环境下基于模型的智能体跟... 展开更多; 关键词连续状态空间多智能体系统基于模型的强化学习高斯回归; 在线阅读下载PDF 职称材料

连续空间的递归最小二乘行动者—评论家算法被引量：2: 3; 作者朱文文金玉净 +1 位作者伏玉琛宋绪文《计算机应用研究》 CSCD 北大核心 2014年第7期1994-1997,2000,共5页; 传统的行动者—评论家(actor-critic,AC)算法用在连续空间时,数据利用率低、收敛慢,而现实世界中采样往往需要昂贵的代价,因此提出了一种新的连续空间递归最小二乘AC算法,能够充分利用数据,提高学习预测能力。该方法用高斯径向基函数对... 展开更多; 关键词强化学习行动者—评论家方法连续状态动作空间递归最小二乘策略梯度高斯径向基函数; 在线阅读下载PDF 职称材料

基于凸多面体抽象域的自适应强化学习技术研究被引量：5: 4; 作者陈冬火刘全 +1 位作者朱斐金海东《计算机学报》 EI CSCD 北大核心 2018年第1期112-131,共20页; 表格驱动的算法是解决强化学习问题的一类重要方法,但由于"维数灾"现象的存在,这种方法不能直接应用于解决具有连续状态空间的强化学习问题.解决维数灾问题的方法主要包括两种:状态空间的离散化和函数近似方法.相比函数近似,... 展开更多; 关键词强化学习凸多面体抽象域连续状态空间 Q(λ) 自适应精化; 在线阅读下载PDF 职称材料

基于最小二乘策略迭代的无人机航迹规划方法被引量：7: 5; 作者陈晓倩刘瑞祥《计算机工程与应用》 CSCD 北大核心 2020年第1期191-195,共5页; 针对传统强化学习方法因对状态空间进行离散化而无法保证无人机在复杂应用场景中航迹精度的问题,使用最小二乘策略迭代(Least-Squares Policy Iteration,LSPI)算法开展连续状态航迹规划问题研究。该算法采用带参线性函数逼近器近似表示... 展开更多; 关键词无人机航迹规划强化学习最小二乘法 Q学习连续状态空间; 在线阅读下载PDF 职称材料

题名一类连续状态与动作空间下的加权Q学习被引量：1: 1; 作者程玉虎易建强王雪松赵冬斌; 机构中国矿业大学信息与电气工程学院中国科学院自动化研究所复杂系统与智能科学实验室; 出处《电机与控制学报》 EI CSCD 北大核心 2005年第6期570-574,共5页; 基金中国矿业大学青年科技基金资助(OC4466); 文摘针对连续状态与动作空间下的控制问题,提出了一类连续状态与动作空间下的加权Q学习算法,应用改进的增长神经气算法动态构建径向基网络的隐含层,实现状态空间的自适应构建。在基于径向基网络实现的标准Q学习基础上,利用加权Q学习算法用以解决具有连续动作输出的控制问题。仿真实例验证了所提算法的有效性。; 关键词连续状态空间连续动作空间加权Q学习神经气算法径向基网络; Keywords continuous state space continuous action space weighted Q-learning neural gas algorithm,RBF network; 分类号 TP273 [自动化与计算机技术—检测技术与自动化装置]; 在线阅读下载PDF 职称材料

题名基于高斯回归的连续空间多智能体跟踪学习被引量：2: 2; 作者陈鑫魏海军吴敏曹卫华; 机构中南大学信息科学与工程学院先进控制与智能自动化湖南省工程实验室; 出处《自动化学报》 EI CSCD 北大核心 2013年第12期2021-2031,共11页; 基金国家自然科学基金(61074058)资助~~; 文摘提高适应性、实现连续空间的泛化、降低维度是实现多智能体强化学习(Multi-agent reinforcement learning,MARL)在连续系统中应用的几个关键.针对上述需求,本文提出连续多智能体系统(Multi-agent systems,MAS)环境下基于模型的智能体跟踪式学习机制和算法(MAS MBRL-CPT).以学习智能体适应同伴策略为出发点,通过定义个体期望即时回报,将智能体对同伴策略的观测融入环境交互效果中,并运用随机逼近实现个体期望即时回报的在线学习.定义降维的Q函数,在降低学习空间维度的同时,建立MAS环境下智能体跟踪式学习的Markov决策过程(Markov decision process,MDP).在运用高斯回归建立状态转移概率模型的基础上,实现泛化样本集Q值函数的在线动态规划求解.基于离散样本集Q函数运用高斯回归建立值函数和策略的泛化模型.MAS MBRL-CPT在连续空间Multi-cart-pole控制系统的仿真实验表明,算法能够使学习智能体在系统动力学模型和同伴策略未知的条件下,实现适应性协作策略的学习,具有学习效率高、泛化能力强等特点.; 关键词连续状态空间多智能体系统基于模型的强化学习高斯回归; Keywords Continuous state space, multi-agent systems （MAS）, model-based reinforcement learning （MBRL）, Gaussianregression （GR）; 分类号 TP18 [自动化与计算机技术—控制理论与控制工程]; 在线阅读下载PDF 职称材料

题名连续空间的递归最小二乘行动者—评论家算法被引量：2: 3; 作者朱文文金玉净伏玉琛宋绪文; 机构苏州大学计算机科学与技术学院; 出处《计算机应用研究》 CSCD 北大核心 2014年第7期1994-1997,2000,共5页; 基金国家自然科学基金资助项目(61070122 61070223 +4 种基金 61373094 60970015) 吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172012K04); 文摘传统的行动者—评论家(actor-critic,AC)算法用在连续空间时,数据利用率低、收敛慢,而现实世界中采样往往需要昂贵的代价,因此提出了一种新的连续空间递归最小二乘AC算法,能够充分利用数据,提高学习预测能力。该方法用高斯径向基函数对连续的状态空间进行编码,评论家部分改用带资格迹的递归最小二乘时间差分方法,而行动者部分用策略梯度方法,在连续动作空间中进行策略搜索。Mountain Car问题的仿真结果表明该算法具有较好的收敛结果。; 关键词强化学习行动者—评论家方法连续状态动作空间递归最小二乘策略梯度高斯径向基函数; Keywords reinforcement learning actor-critic method continuous state and action space recursive least-squares policy gradient Gaussian radial basis functions; 分类号 TP181 [自动化与计算机技术—控制理论与控制工程] TP301.6 [自动化与计算机技术—计算机系统结构]; 在线阅读下载PDF 职称材料

题名基于凸多面体抽象域的自适应强化学习技术研究被引量：5: 4; 作者陈冬火刘全朱斐金海东; 机构苏州大学计算机科学与技术学院符号计算与知识工程教育部重点实验室(吉林大学); 出处《计算机学报》 EI CSCD 北大核心 2018年第1期112-131,共20页; 基金国家自然科学基金项目(61272005 61303108 +10 种基金 61373094 61472262 61502323 61502329) 浙江省自然科学基金(LY16F010019)资助~~; 文摘表格驱动的算法是解决强化学习问题的一类重要方法,但由于"维数灾"现象的存在,这种方法不能直接应用于解决具有连续状态空间的强化学习问题.解决维数灾问题的方法主要包括两种:状态空间的离散化和函数近似方法.相比函数近似,基于连续状态空间离散化的表格驱动方法具有原理直观、程序结构简单和计算轻量化的特点.基于连续状态空间离散化方法的关键是发现合适的状态空间离散化机制,平衡计算量及准确性,并且确保基于离散抽象状态空间的数值性度量,例如V值函数和Q值函数,可以较为准确地对原始强化学习问题进行策略评估和最优策略π*计算.文中提出一种基于凸多面体抽象域的自适应状态空间离散化方法,实现自适应的基于凸多面体抽象域的Q(λ)强化学习算法(Adaptive Polyhedra Domain based Q(λ),APDQ(λ)).凸多面体是一种抽象状态的表达方法,广泛应用于各种随机系统性能评估和程序数值性属性的验证.这种方法通过抽象函数,建立具体状态空间至多面体域的抽象状态空间的映射,把连续状态空间最优策略的计算问题转化为有限大小的和易于处理的抽象状态空间最优策略的计算问题.根据与抽象状态相关的样本集信息,设计了包括BoxRefinement、LFRefinement和MVLFRefinement多种自适应精化机制.依据这些精化机制,对抽象状态空间持续进行适应性精化,从而优化具体状态空间的离散化机制,产生符合在线抽样样本空间所蕴涵的统计奖赏模型.基于多面体专业计算库PPL(Parma Polyhedra Library)和高精度数值计算库GMP(GNU Multiple Precision)实现了算法APDQ(λ),并实施了实例研究.选择典型的连续状态空间强化学习问题山地车(Mountain Car,MC)和杂技机器人(Acrobatic robot,Acrobot)作为实验对象,详细评估了各种强化学习参数和自适应精化相关的阈值参数对APDQ(λ)性能的影响,探究了抽象状态空间动态变化情况下各种参数在策略优化过程中的作用机理.实验结果显示当折扣率γ大于0.7时,算法展现出较好的综合性能,在初期,策略都快速地改进,后面的阶段平缓地趋向收敛(如图6~图13所示),并且对学习率α和各种抽象状态空间精化参数都具有较好的适应性;当折扣率γ小于0.6时,算法的性能衰退较快.抽象解释技术用于统计学习过程是一种较好的解决连续强化学习问题的思想,有许多问题值得进一步研究和探讨,例如基于近似模型的采样和值函数更新等问题.; 关键词强化学习凸多面体抽象域连续状态空间 Q(λ) 自适应精化; Keywords reinforcement learning convex polyhedra abstraction domain continuous states pace Q（λ） adaptive refinement; 分类号 TP18 [自动化与计算机技术—控制理论与控制工程]; 在线阅读下载PDF 职称材料

题名基于最小二乘策略迭代的无人机航迹规划方法被引量：7: 5; 作者陈晓倩刘瑞祥; 机构北京联合大学智慧城市学院; 出处《计算机工程与应用》 CSCD 北大核心 2020年第1期191-195,共5页; 基金英国皇家工程院牛顿基金（No.UK-CIAPP\324）北京联合大学研究生资助项目; 文摘针对传统强化学习方法因对状态空间进行离散化而无法保证无人机在复杂应用场景中航迹精度的问题,使用最小二乘策略迭代(Least-Squares Policy Iteration,LSPI)算法开展连续状态航迹规划问题研究。该算法采用带参线性函数逼近器近似表示动作值函数,无需进行空间离散化,提高了航迹精度,并基于样本数据离线计算策略,直接对策略进行评价和改进。与Q学习算法的对比仿真实验结果表明LSPI算法规划出的三维航迹更为平滑,有利于飞机实际飞行。; 关键词无人机航迹规划强化学习最小二乘法 Q学习连续状态空间; Keywords unmanned aerial vehicle route planning reinforcement learning least squares method Q-learning continuous state spaces; 分类号 TP293 [自动化与计算机技术—检测技术与自动化装置]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	一类连续状态与动作空间下的加权Q学习	程玉虎易建强王雪松赵冬斌	《电机与控制学报》 EI CSCD 北大核心	2005	1	在线阅读下载PDF 职称材料
2	基于高斯回归的连续空间多智能体跟踪学习	陈鑫魏海军吴敏曹卫华	《自动化学报》 EI CSCD 北大核心	2013	2	在线阅读下载PDF 职称材料
3	连续空间的递归最小二乘行动者—评论家算法	朱文文金玉净伏玉琛宋绪文	《计算机应用研究》 CSCD 北大核心	2014	2	在线阅读下载PDF 职称材料
4	基于凸多面体抽象域的自适应强化学习技术研究	陈冬火刘全朱斐金海东	《计算机学报》 EI CSCD 北大核心	2018	5	在线阅读下载PDF 职称材料
5	基于最小二乘策略迭代的无人机航迹规划方法	陈晓倩刘瑞祥	《计算机工程与应用》 CSCD 北大核心	2020	7	在线阅读下载PDF 职称材料