期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
一种新的连续动作集学习自动机 被引量:2
1
作者 刘晓 毛宁 《数据采集与处理》 CSCD 北大核心 2015年第6期1310-1317,共8页
学习自动机(Learning automation,LA)是一种自适应决策器。其通过与一个随机环境不断交互学习从一个允许的动作集里选择最优的动作。在大多数传统的LA模型中,动作集总是被取作有限的。因此,对于连续参数学习问题,需要将动作空间离散化,... 学习自动机(Learning automation,LA)是一种自适应决策器。其通过与一个随机环境不断交互学习从一个允许的动作集里选择最优的动作。在大多数传统的LA模型中,动作集总是被取作有限的。因此,对于连续参数学习问题,需要将动作空间离散化,并且学习的精度取决于离散化的粒度。本文提出一种新的连续动作集学习自动机(Continuous action-set learning automaton,CALA),其动作集为一个可变区间,同时按照均匀分布方式选择输出动作。学习算法利用来自环境的二值反馈信号对动作区间的端点进行自适应更新。通过一个多模态学习问题的仿真实验,演示了新算法相对于3种现有CALA算法的优越性。 展开更多
关键词 机器学习 强化学习 在线学习 学习自动机 连续动作学习自动机
在线阅读 下载PDF
潜在空间中的策略搜索强化学习方法
2
作者 赵婷婷 王莹 +3 位作者 孙威 陈亚瑞 王嫄 杨巨成 《计算机科学与探索》 CSCD 北大核心 2024年第4期1032-1046,共15页
策略搜索是深度强化学习领域中一种能够解决大规模连续状态空间和动作空间问题的高效学习方法,被广泛应用在现实问题中。然而,此类方法通常需要花费大量的学习样本和训练时间,且泛化能力较差,学到的策略模型难以泛化至环境中看似微小的... 策略搜索是深度强化学习领域中一种能够解决大规模连续状态空间和动作空间问题的高效学习方法,被广泛应用在现实问题中。然而,此类方法通常需要花费大量的学习样本和训练时间,且泛化能力较差,学到的策略模型难以泛化至环境中看似微小的变化。为了解决上述问题,提出了一种基于潜在空间的策略搜索强化学习方法。将学习状态表示的思想拓展到动作表示上,即在动作表示的潜在空间中学习策略,再将动作表示映射到真实动作空间中。通过表示学习模型的引入,摒弃端到端的训练方式,将整个强化学习任务划分成大规模的表示模型部分和小规模的策略模型部分,使用无监督的学习方法来学习表示模型,使用策略搜索强化学习方法学习小规模的策略模型。大规模的表示模型能保留应有的泛化性和表达能力,小规模的策略模型有助于减轻策略学习的负担,从而在一定程度上缓解深度强化学习领域中样本利用率低、学习效率低和动作选择泛化性弱的问题。最后,在智能控制任务CarRacing和Cheetah中验证了引入潜在空间中的状态表示和动作表示的有效性。 展开更多
关键词 无模型强化学习 策略模型 状态表示 动作表示 连续动作空间 策略搜索强化学习方法
在线阅读 下载PDF
基于深度强化学习的机械臂多模混合控制
3
作者 李家乐 张建锋 +2 位作者 李彬 刘天琅 陈检 《计算机工程与设计》 北大核心 2024年第9期2835-2843,共9页
针对基于深度强化学习控制的机械臂动态避障能力不足,在作业过程中存在多任务冲突问题,提出一种基于双重角色和正则化批评者算法(DARC)的多模混合控制方法。将任务分解为多段避障模式,借助人工势场法的斥力引力思想设计奖励函数并分别... 针对基于深度强化学习控制的机械臂动态避障能力不足,在作业过程中存在多任务冲突问题,提出一种基于双重角色和正则化批评者算法(DARC)的多模混合控制方法。将任务分解为多段避障模式,借助人工势场法的斥力引力思想设计奖励函数并分别进行训练;将经过初步训练的多个模式以距离阈值或奖励积累阈值进行切换控制,消除混合控制存在的冲突;结合机械臂单元运动学特点设计具有软体性质的多连杆机械臂平面仿真模型。实验验证所提方法能够有效提升机械臂动态避障能力,避免多任务间的冲突。 展开更多
关键词 深度强化学习 机械臂 双重演员正则化评论家算法(DARC) 奖励机制 动态避障 优先经验回放机制 连续动作控制
在线阅读 下载PDF
基于强化学习的无人机自主机动决策方法 被引量:25
4
作者 孙楚 赵辉 +2 位作者 王渊 周欢 韩瑾 《火力与指挥控制》 CSCD 北大核心 2019年第4期142-149,共8页
提出了一种基于连续动作集强化学习的无人机机动决策方法。通过Actor-Critic强化学习构架下的NRBF神经网络输出状态真实效用值与连续动作控制变量,效用值与动作控制变量的输出层共用隐层以简化网络结构。结合相对熵理论设计隐层节点的... 提出了一种基于连续动作集强化学习的无人机机动决策方法。通过Actor-Critic强化学习构架下的NRBF神经网络输出状态真实效用值与连续动作控制变量,效用值与动作控制变量的输出层共用隐层以简化网络结构。结合相对熵理论设计隐层节点的自适应调整方法,有效减少了隐层节点数目。对输出动作控制变量,采用基于高斯分布的连续动作选择策略,并依据训练次数调整随机动作控制变量的概率分布,提升了网络对未知策略的探索能力。在3种不同空战态势下的仿真验证了该方法的有效性,结果表明该方法生成的策略鲁棒性较强,动作控制量更加精确。 展开更多
关键词 无人作战飞机 机动决策 强化学习 连续动作 神经网络
在线阅读 下载PDF
一种用于连续动作空间的最小二乘行动者-评论家方法 被引量:9
5
作者 朱斐 刘全 +1 位作者 傅启明 伏玉琛 《计算机研究与发展》 EI CSCD 北大核心 2014年第3期548-558,共11页
解决具有连续动作空间的问题是当前强化学习领域的一个研究热点和难点.在处理这类问题时,传统的强化学习算法通常利用先验信息对连续动作空间进行离散化处理,然后再求解最优策略.然而,在很多实际应用中,由于缺乏用于离散化处理的先验信... 解决具有连续动作空间的问题是当前强化学习领域的一个研究热点和难点.在处理这类问题时,传统的强化学习算法通常利用先验信息对连续动作空间进行离散化处理,然后再求解最优策略.然而,在很多实际应用中,由于缺乏用于离散化处理的先验信息,算法效果会变差甚至算法失效.针对这类问题,提出了一种最小二乘行动者-评论家方法(least square actor-critic algorithm,LSAC),使用函数逼近器近似表示值函数及策略,利用最小二乘法在线动态求解近似值函数参数及近似策略参数,以近似值函数作为评论家指导近似策略参数的求解.将LSAC算法用于解决经典的具有连续动作空间的小车平衡杆问题和mountain car问题,并与Cacla(continuous actor-critic learning automaton)算法和eNAC(episodic natural actor-critic)算法进行比较.结果表明,LSAC算法能有效地解决连续动作空间问题,并具有较优的执行性能. 展开更多
关键词 强化学习 行动者-评论家算法 连续动作空间 最小二乘法 小车平衡杆问题 MOUNTAIN car问题
在线阅读 下载PDF
用于连续时间中策略梯度算法的动作稳定更新算法 被引量:3
6
作者 宋江帆 李金龙 《计算机应用研究》 CSCD 北大核心 2023年第10期2928-2932,2944,共6页
在强化学习中,策略梯度法经常需要通过采样将连续时间问题建模为离散时间问题。为了建模更加精确,需要提高采样频率,然而过高的采样频率可能会使动作改变频率过高,从而降低训练效率。针对这个问题,提出了动作稳定更新算法。该方法使用... 在强化学习中,策略梯度法经常需要通过采样将连续时间问题建模为离散时间问题。为了建模更加精确,需要提高采样频率,然而过高的采样频率可能会使动作改变频率过高,从而降低训练效率。针对这个问题,提出了动作稳定更新算法。该方法使用策略函数输出的改变量计算动作重复的概率,并根据该概率随机地重复或改变动作。在理论上分析了算法性能。之后在九个不同的环境中评估算法的性能,并且将它和已有方法进行了比较。该方法在其中六个环境下超过了现有方法。实验结果表明,动作稳定更新算法可以有效提高策略梯度法在连续时间问题中的训练效率。 展开更多
关键词 强化学习 连续时间 策略梯度 动作重复
在线阅读 下载PDF
基于深度强化学习的居民实时自治最优能量管理策略 被引量:8
7
作者 叶宇剑 王卉宇 +1 位作者 汤奕 Goran STRBAC 《电力系统自动化》 EI CSCD 北大核心 2022年第1期110-119,共10页
随着居民分布式资源的普及,如何考虑用户多类型设备的运行特性,满足实时自治能量管理需求以达到用户侧经济性最优成为亟待解决的课题。传统基于模型的最优化方法在模型精准构建和应对多重不确定性等方面存在局限性,为此提出一种无模型... 随着居民分布式资源的普及,如何考虑用户多类型设备的运行特性,满足实时自治能量管理需求以达到用户侧经济性最优成为亟待解决的课题。传统基于模型的最优化方法在模型精准构建和应对多重不确定性等方面存在局限性,为此提出一种无模型的基于深度强化学习的实时自治能量管理优化方法。首先,对用户设备进行分类,采用统一的三元组描述其运行特性,并确定相应的能量管理动作;接着,采用长短期记忆神经网络提取环境状态中多源时序数据的未来走势;进而,基于近端策略优化算法,赋能在多维连续-离散混合的动作空间中高效学习最优能量管理策略,在最小化用电成本的同时提升策略对不确定性的适应性;最后,通过实际情境对比现有方法的优化决策效果,验证所提方法的有效性。 展开更多
关键词 实时自治能量管理优化 不确定性 连续-离散混合动作 长短期记忆神经网络 深度强化学习
在线阅读 下载PDF
基于随机加权三重Q学习的异策略最大熵强化学习算法 被引量:2
8
作者 范静宇 刘全 《计算机科学》 CSCD 北大核心 2022年第6期335-341,共7页
强化学习是机器学习中一个重要的分支,随着深度学习的发展,深度强化学习逐渐发展为强化学习研究的重点。因应用广泛且实用性较强,面向连续控制问题的无模型异策略深度强化学习算法备受关注。同基于离散动作的Q学习一样,类行动者-评论家... 强化学习是机器学习中一个重要的分支,随着深度学习的发展,深度强化学习逐渐发展为强化学习研究的重点。因应用广泛且实用性较强,面向连续控制问题的无模型异策略深度强化学习算法备受关注。同基于离散动作的Q学习一样,类行动者-评论家算法会受到动作值高估问题的影响。在类行动者-评论家算法的学习过程中,剪切双Q学习可以在一定程度上解决动作值高估的问题,但同时也引入了一定程度的低估问题。为了进一步解决类行动者-评论家算法中的高低估问题,提出了一种新的随机加权三重Q学习方法。该方法可以更好地解决类行动者-评论家算法中的高低估问题。此外,将这种新的方法与软行动者-评论家算法结合,提出了一种新的基于随机加权三重Q学习的软行动者-评论家算法,该算法在限制Q估计值在真实Q值附近的同时,通过随机加权方法增加Q估计值的随机性,从而有效解决了学习过程中对动作值的高低估问题。实验结果表明,相比SAC算法、DDPG算法、PPO算法与TD3算法等深度强化学习算法,SAC-RWTQ算法可以在gym仿真平台中的多个Mujoco任务上获得更好的表现。 展开更多
关键词 Q学习 深度学习 异策略强化学习 连续动作空间 最大熵 软行动者—评论家算法
在线阅读 下载PDF
基于CARLA-PSO组合模型的智能控制器参数学习优化 被引量:4
9
作者 谷学静 张明儒 +1 位作者 王志良 郭宇承 《计算机应用研究》 CSCD 北大核心 2019年第3期677-680,共4页
对连续动作强化学习自动机(CARLA)进行了改进,应用改进后的CARLA结合粒子群优化算法(PSO)优化PID参数。以CARLA为基础,建立了CARLA和PSO的组合优化学习模型CARLA-PSO,该模型包含CAR-LA学习环路和PSO学习环路两个部分,通过优化策略选择... 对连续动作强化学习自动机(CARLA)进行了改进,应用改进后的CARLA结合粒子群优化算法(PSO)优化PID参数。以CARLA为基础,建立了CARLA和PSO的组合优化学习模型CARLA-PSO,该模型包含CAR-LA学习环路和PSO学习环路两个部分,通过优化策略选择器进行学习环路的选择,通过与环境进行相互作用,获得最优控制。对连铸结晶器液位控制进行了仿真实验,实验结果表明,CARLA-PSO在进行PID参数优化时寻优效率高,全局搜索能力强,能够达到理想的控制效果,具有较好的应用前景。 展开更多
关键词 连续动作学习强化自动机 粒子群优化算法 智能PID控制器 结晶器液位
在线阅读 下载PDF
连续空间的递归最小二乘行动者—评论家算法 被引量:2
10
作者 朱文文 金玉净 +1 位作者 伏玉琛 宋绪文 《计算机应用研究》 CSCD 北大核心 2014年第7期1994-1997,2000,共5页
传统的行动者—评论家(actor-critic,AC)算法用在连续空间时,数据利用率低、收敛慢,而现实世界中采样往往需要昂贵的代价,因此提出了一种新的连续空间递归最小二乘AC算法,能够充分利用数据,提高学习预测能力。该方法用高斯径向基函数对... 传统的行动者—评论家(actor-critic,AC)算法用在连续空间时,数据利用率低、收敛慢,而现实世界中采样往往需要昂贵的代价,因此提出了一种新的连续空间递归最小二乘AC算法,能够充分利用数据,提高学习预测能力。该方法用高斯径向基函数对连续的状态空间进行编码,评论家部分改用带资格迹的递归最小二乘时间差分方法,而行动者部分用策略梯度方法,在连续动作空间中进行策略搜索。Mountain Car问题的仿真结果表明该算法具有较好的收敛结果。 展开更多
关键词 强化学习 行动者—评论家方法 连续状态动作空间 递归最小二乘 策略梯度 高斯径向基函数
在线阅读 下载PDF
基于KL散度的策略优化 被引量:10
11
作者 李建国 赵海涛 孙韶媛 《计算机科学》 CSCD 北大核心 2019年第6期212-217,共6页
强化学习(Reinforcement Learning,RL)在复杂的优化和控制问题中具有广泛的应用前景。针对传统的策略梯度方法在处理高维的连续动作空间环境时无法有效学习复杂策略,导致收敛速度慢甚至无法收敛的问题,提出了一种在线学习的基于KL散度... 强化学习(Reinforcement Learning,RL)在复杂的优化和控制问题中具有广泛的应用前景。针对传统的策略梯度方法在处理高维的连续动作空间环境时无法有效学习复杂策略,导致收敛速度慢甚至无法收敛的问题,提出了一种在线学习的基于KL散度的策略优化算法(KL-divergence-based Policy Optimization,KLPO)。在Actor-Critic方法的基础上,通过引入KL散度构造惩罚项,将“新”“旧”策略间的散度结合到损失函数中,以对Actor部分的策略更新进行优化;并进一步利用KL散度控制算法更新学习步长,以确保策略每次在由KL散度定义的合理范围内以最大学习步长进行更新。分别在经典的倒立摆仿真环境和公开的连续动作空间的机器人运动环境中对所提算法进行了测试。实验结果表明,KLPO算法能够更好地学习复杂的策略,收敛速度快,并且可获取更高的回报。 展开更多
关键词 强化学习 KL散度 策略优化 连续动作空间
在线阅读 下载PDF
优化深度确定性策略梯度算法 被引量:12
12
作者 柯丰恺 周唯倜 赵大兴 《计算机工程与应用》 CSCD 北大核心 2019年第7期151-156,233,共7页
深度强化学习善于解决控制的优化问题,连续动作的控制因为精度的要求,动作的数量随着动作维度的增加呈指数型增长,难以用离散的动作来表示。基于Actor-Critic框架的深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法虽... 深度强化学习善于解决控制的优化问题,连续动作的控制因为精度的要求,动作的数量随着动作维度的增加呈指数型增长,难以用离散的动作来表示。基于Actor-Critic框架的深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法虽然解决了连续动作控制问题,但是仍然存在采样方式缺乏科学理论指导、动作维度较高时的最优动作与非最优动作之间差距被忽视等问题。针对上述问题,提出一种基于DDPG算法的优化采样及精确评价的改进算法,并成功应用于选择顺应性装配机器臂(Selective Compliance Assembly Robot Arm,SCARA)的仿真环境中,与原始的DDPG算法对比,取得了良好的效果,实现了SCARA机器人快速自动定位。 展开更多
关键词 强化学习 深度学习 连续动作控制 机器臂
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部