期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
12
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
一种新的连续动作集学习自动机
被引量:
2
1
作者
刘晓
毛宁
《数据采集与处理》
CSCD
北大核心
2015年第6期1310-1317,共8页
学习自动机(Learning automation,LA)是一种自适应决策器。其通过与一个随机环境不断交互学习从一个允许的动作集里选择最优的动作。在大多数传统的LA模型中,动作集总是被取作有限的。因此,对于连续参数学习问题,需要将动作空间离散化,...
学习自动机(Learning automation,LA)是一种自适应决策器。其通过与一个随机环境不断交互学习从一个允许的动作集里选择最优的动作。在大多数传统的LA模型中,动作集总是被取作有限的。因此,对于连续参数学习问题,需要将动作空间离散化,并且学习的精度取决于离散化的粒度。本文提出一种新的连续动作集学习自动机(Continuous action-set learning automaton,CALA),其动作集为一个可变区间,同时按照均匀分布方式选择输出动作。学习算法利用来自环境的二值反馈信号对动作区间的端点进行自适应更新。通过一个多模态学习问题的仿真实验,演示了新算法相对于3种现有CALA算法的优越性。
展开更多
关键词
机器
学习
强化
学习
在线
学习
学习
自动机
连续
动作
集
学习
自动机
在线阅读
下载PDF
职称材料
潜在空间中的策略搜索强化学习方法
2
作者
赵婷婷
王莹
+3 位作者
孙威
陈亚瑞
王嫄
杨巨成
《计算机科学与探索》
CSCD
北大核心
2024年第4期1032-1046,共15页
策略搜索是深度强化学习领域中一种能够解决大规模连续状态空间和动作空间问题的高效学习方法,被广泛应用在现实问题中。然而,此类方法通常需要花费大量的学习样本和训练时间,且泛化能力较差,学到的策略模型难以泛化至环境中看似微小的...
策略搜索是深度强化学习领域中一种能够解决大规模连续状态空间和动作空间问题的高效学习方法,被广泛应用在现实问题中。然而,此类方法通常需要花费大量的学习样本和训练时间,且泛化能力较差,学到的策略模型难以泛化至环境中看似微小的变化。为了解决上述问题,提出了一种基于潜在空间的策略搜索强化学习方法。将学习状态表示的思想拓展到动作表示上,即在动作表示的潜在空间中学习策略,再将动作表示映射到真实动作空间中。通过表示学习模型的引入,摒弃端到端的训练方式,将整个强化学习任务划分成大规模的表示模型部分和小规模的策略模型部分,使用无监督的学习方法来学习表示模型,使用策略搜索强化学习方法学习小规模的策略模型。大规模的表示模型能保留应有的泛化性和表达能力,小规模的策略模型有助于减轻策略学习的负担,从而在一定程度上缓解深度强化学习领域中样本利用率低、学习效率低和动作选择泛化性弱的问题。最后,在智能控制任务CarRacing和Cheetah中验证了引入潜在空间中的状态表示和动作表示的有效性。
展开更多
关键词
无模型
强化
学习
策略模型
状态表示
动作
表示
连续
动作
空间
策略搜索
强化
学习
方法
在线阅读
下载PDF
职称材料
基于深度强化学习的机械臂多模混合控制
3
作者
李家乐
张建锋
+2 位作者
李彬
刘天琅
陈检
《计算机工程与设计》
北大核心
2024年第9期2835-2843,共9页
针对基于深度强化学习控制的机械臂动态避障能力不足,在作业过程中存在多任务冲突问题,提出一种基于双重角色和正则化批评者算法(DARC)的多模混合控制方法。将任务分解为多段避障模式,借助人工势场法的斥力引力思想设计奖励函数并分别...
针对基于深度强化学习控制的机械臂动态避障能力不足,在作业过程中存在多任务冲突问题,提出一种基于双重角色和正则化批评者算法(DARC)的多模混合控制方法。将任务分解为多段避障模式,借助人工势场法的斥力引力思想设计奖励函数并分别进行训练;将经过初步训练的多个模式以距离阈值或奖励积累阈值进行切换控制,消除混合控制存在的冲突;结合机械臂单元运动学特点设计具有软体性质的多连杆机械臂平面仿真模型。实验验证所提方法能够有效提升机械臂动态避障能力,避免多任务间的冲突。
展开更多
关键词
深度
强化
学习
机械臂
双重演员正则化评论家算法(DARC)
奖励机制
动态避障
优先经验回放机制
连续
动作
控制
在线阅读
下载PDF
职称材料
基于强化学习的无人机自主机动决策方法
被引量:
25
4
作者
孙楚
赵辉
+2 位作者
王渊
周欢
韩瑾
《火力与指挥控制》
CSCD
北大核心
2019年第4期142-149,共8页
提出了一种基于连续动作集强化学习的无人机机动决策方法。通过Actor-Critic强化学习构架下的NRBF神经网络输出状态真实效用值与连续动作控制变量,效用值与动作控制变量的输出层共用隐层以简化网络结构。结合相对熵理论设计隐层节点的...
提出了一种基于连续动作集强化学习的无人机机动决策方法。通过Actor-Critic强化学习构架下的NRBF神经网络输出状态真实效用值与连续动作控制变量,效用值与动作控制变量的输出层共用隐层以简化网络结构。结合相对熵理论设计隐层节点的自适应调整方法,有效减少了隐层节点数目。对输出动作控制变量,采用基于高斯分布的连续动作选择策略,并依据训练次数调整随机动作控制变量的概率分布,提升了网络对未知策略的探索能力。在3种不同空战态势下的仿真验证了该方法的有效性,结果表明该方法生成的策略鲁棒性较强,动作控制量更加精确。
展开更多
关键词
无人作战飞机
机动决策
强化
学习
连续
动作
神经网络
在线阅读
下载PDF
职称材料
一种用于连续动作空间的最小二乘行动者-评论家方法
被引量:
9
5
作者
朱斐
刘全
+1 位作者
傅启明
伏玉琛
《计算机研究与发展》
EI
CSCD
北大核心
2014年第3期548-558,共11页
解决具有连续动作空间的问题是当前强化学习领域的一个研究热点和难点.在处理这类问题时,传统的强化学习算法通常利用先验信息对连续动作空间进行离散化处理,然后再求解最优策略.然而,在很多实际应用中,由于缺乏用于离散化处理的先验信...
解决具有连续动作空间的问题是当前强化学习领域的一个研究热点和难点.在处理这类问题时,传统的强化学习算法通常利用先验信息对连续动作空间进行离散化处理,然后再求解最优策略.然而,在很多实际应用中,由于缺乏用于离散化处理的先验信息,算法效果会变差甚至算法失效.针对这类问题,提出了一种最小二乘行动者-评论家方法(least square actor-critic algorithm,LSAC),使用函数逼近器近似表示值函数及策略,利用最小二乘法在线动态求解近似值函数参数及近似策略参数,以近似值函数作为评论家指导近似策略参数的求解.将LSAC算法用于解决经典的具有连续动作空间的小车平衡杆问题和mountain car问题,并与Cacla(continuous actor-critic learning automaton)算法和eNAC(episodic natural actor-critic)算法进行比较.结果表明,LSAC算法能有效地解决连续动作空间问题,并具有较优的执行性能.
展开更多
关键词
强化
学习
行动者-评论家算法
连续
动作
空间
最小二乘法
小车平衡杆问题
MOUNTAIN
car问题
在线阅读
下载PDF
职称材料
用于连续时间中策略梯度算法的动作稳定更新算法
被引量:
3
6
作者
宋江帆
李金龙
《计算机应用研究》
CSCD
北大核心
2023年第10期2928-2932,2944,共6页
在强化学习中,策略梯度法经常需要通过采样将连续时间问题建模为离散时间问题。为了建模更加精确,需要提高采样频率,然而过高的采样频率可能会使动作改变频率过高,从而降低训练效率。针对这个问题,提出了动作稳定更新算法。该方法使用...
在强化学习中,策略梯度法经常需要通过采样将连续时间问题建模为离散时间问题。为了建模更加精确,需要提高采样频率,然而过高的采样频率可能会使动作改变频率过高,从而降低训练效率。针对这个问题,提出了动作稳定更新算法。该方法使用策略函数输出的改变量计算动作重复的概率,并根据该概率随机地重复或改变动作。在理论上分析了算法性能。之后在九个不同的环境中评估算法的性能,并且将它和已有方法进行了比较。该方法在其中六个环境下超过了现有方法。实验结果表明,动作稳定更新算法可以有效提高策略梯度法在连续时间问题中的训练效率。
展开更多
关键词
强化
学习
连续
时间
策略梯度
动作
重复
在线阅读
下载PDF
职称材料
基于深度强化学习的居民实时自治最优能量管理策略
被引量:
8
7
作者
叶宇剑
王卉宇
+1 位作者
汤奕
Goran STRBAC
《电力系统自动化》
EI
CSCD
北大核心
2022年第1期110-119,共10页
随着居民分布式资源的普及,如何考虑用户多类型设备的运行特性,满足实时自治能量管理需求以达到用户侧经济性最优成为亟待解决的课题。传统基于模型的最优化方法在模型精准构建和应对多重不确定性等方面存在局限性,为此提出一种无模型...
随着居民分布式资源的普及,如何考虑用户多类型设备的运行特性,满足实时自治能量管理需求以达到用户侧经济性最优成为亟待解决的课题。传统基于模型的最优化方法在模型精准构建和应对多重不确定性等方面存在局限性,为此提出一种无模型的基于深度强化学习的实时自治能量管理优化方法。首先,对用户设备进行分类,采用统一的三元组描述其运行特性,并确定相应的能量管理动作;接着,采用长短期记忆神经网络提取环境状态中多源时序数据的未来走势;进而,基于近端策略优化算法,赋能在多维连续-离散混合的动作空间中高效学习最优能量管理策略,在最小化用电成本的同时提升策略对不确定性的适应性;最后,通过实际情境对比现有方法的优化决策效果,验证所提方法的有效性。
展开更多
关键词
实时自治能量管理优化
不确定性
连续
-离散混合
动作
长短期记忆神经网络
深度
强化
学习
在线阅读
下载PDF
职称材料
基于随机加权三重Q学习的异策略最大熵强化学习算法
被引量:
2
8
作者
范静宇
刘全
《计算机科学》
CSCD
北大核心
2022年第6期335-341,共7页
强化学习是机器学习中一个重要的分支,随着深度学习的发展,深度强化学习逐渐发展为强化学习研究的重点。因应用广泛且实用性较强,面向连续控制问题的无模型异策略深度强化学习算法备受关注。同基于离散动作的Q学习一样,类行动者-评论家...
强化学习是机器学习中一个重要的分支,随着深度学习的发展,深度强化学习逐渐发展为强化学习研究的重点。因应用广泛且实用性较强,面向连续控制问题的无模型异策略深度强化学习算法备受关注。同基于离散动作的Q学习一样,类行动者-评论家算法会受到动作值高估问题的影响。在类行动者-评论家算法的学习过程中,剪切双Q学习可以在一定程度上解决动作值高估的问题,但同时也引入了一定程度的低估问题。为了进一步解决类行动者-评论家算法中的高低估问题,提出了一种新的随机加权三重Q学习方法。该方法可以更好地解决类行动者-评论家算法中的高低估问题。此外,将这种新的方法与软行动者-评论家算法结合,提出了一种新的基于随机加权三重Q学习的软行动者-评论家算法,该算法在限制Q估计值在真实Q值附近的同时,通过随机加权方法增加Q估计值的随机性,从而有效解决了学习过程中对动作值的高低估问题。实验结果表明,相比SAC算法、DDPG算法、PPO算法与TD3算法等深度强化学习算法,SAC-RWTQ算法可以在gym仿真平台中的多个Mujoco任务上获得更好的表现。
展开更多
关键词
Q
学习
深度
学习
异策略
强化
学习
连续
动作
空间
最大熵
软行动者—评论家算法
在线阅读
下载PDF
职称材料
基于CARLA-PSO组合模型的智能控制器参数学习优化
被引量:
4
9
作者
谷学静
张明儒
+1 位作者
王志良
郭宇承
《计算机应用研究》
CSCD
北大核心
2019年第3期677-680,共4页
对连续动作强化学习自动机(CARLA)进行了改进,应用改进后的CARLA结合粒子群优化算法(PSO)优化PID参数。以CARLA为基础,建立了CARLA和PSO的组合优化学习模型CARLA-PSO,该模型包含CAR-LA学习环路和PSO学习环路两个部分,通过优化策略选择...
对连续动作强化学习自动机(CARLA)进行了改进,应用改进后的CARLA结合粒子群优化算法(PSO)优化PID参数。以CARLA为基础,建立了CARLA和PSO的组合优化学习模型CARLA-PSO,该模型包含CAR-LA学习环路和PSO学习环路两个部分,通过优化策略选择器进行学习环路的选择,通过与环境进行相互作用,获得最优控制。对连铸结晶器液位控制进行了仿真实验,实验结果表明,CARLA-PSO在进行PID参数优化时寻优效率高,全局搜索能力强,能够达到理想的控制效果,具有较好的应用前景。
展开更多
关键词
连续动作学习强化自动机
粒子群优化算法
智能PID控制器
结晶器液位
在线阅读
下载PDF
职称材料
连续空间的递归最小二乘行动者—评论家算法
被引量:
2
10
作者
朱文文
金玉净
+1 位作者
伏玉琛
宋绪文
《计算机应用研究》
CSCD
北大核心
2014年第7期1994-1997,2000,共5页
传统的行动者—评论家(actor-critic,AC)算法用在连续空间时,数据利用率低、收敛慢,而现实世界中采样往往需要昂贵的代价,因此提出了一种新的连续空间递归最小二乘AC算法,能够充分利用数据,提高学习预测能力。该方法用高斯径向基函数对...
传统的行动者—评论家(actor-critic,AC)算法用在连续空间时,数据利用率低、收敛慢,而现实世界中采样往往需要昂贵的代价,因此提出了一种新的连续空间递归最小二乘AC算法,能够充分利用数据,提高学习预测能力。该方法用高斯径向基函数对连续的状态空间进行编码,评论家部分改用带资格迹的递归最小二乘时间差分方法,而行动者部分用策略梯度方法,在连续动作空间中进行策略搜索。Mountain Car问题的仿真结果表明该算法具有较好的收敛结果。
展开更多
关键词
强化
学习
行动者—评论家方法
连续
状态
动作
空间
递归最小二乘
策略梯度
高斯径向基函数
在线阅读
下载PDF
职称材料
基于KL散度的策略优化
被引量:
10
11
作者
李建国
赵海涛
孙韶媛
《计算机科学》
CSCD
北大核心
2019年第6期212-217,共6页
强化学习(Reinforcement Learning,RL)在复杂的优化和控制问题中具有广泛的应用前景。针对传统的策略梯度方法在处理高维的连续动作空间环境时无法有效学习复杂策略,导致收敛速度慢甚至无法收敛的问题,提出了一种在线学习的基于KL散度...
强化学习(Reinforcement Learning,RL)在复杂的优化和控制问题中具有广泛的应用前景。针对传统的策略梯度方法在处理高维的连续动作空间环境时无法有效学习复杂策略,导致收敛速度慢甚至无法收敛的问题,提出了一种在线学习的基于KL散度的策略优化算法(KL-divergence-based Policy Optimization,KLPO)。在Actor-Critic方法的基础上,通过引入KL散度构造惩罚项,将“新”“旧”策略间的散度结合到损失函数中,以对Actor部分的策略更新进行优化;并进一步利用KL散度控制算法更新学习步长,以确保策略每次在由KL散度定义的合理范围内以最大学习步长进行更新。分别在经典的倒立摆仿真环境和公开的连续动作空间的机器人运动环境中对所提算法进行了测试。实验结果表明,KLPO算法能够更好地学习复杂的策略,收敛速度快,并且可获取更高的回报。
展开更多
关键词
强化
学习
KL散度
策略优化
连续
动作
空间
在线阅读
下载PDF
职称材料
优化深度确定性策略梯度算法
被引量:
12
12
作者
柯丰恺
周唯倜
赵大兴
《计算机工程与应用》
CSCD
北大核心
2019年第7期151-156,233,共7页
深度强化学习善于解决控制的优化问题,连续动作的控制因为精度的要求,动作的数量随着动作维度的增加呈指数型增长,难以用离散的动作来表示。基于Actor-Critic框架的深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法虽...
深度强化学习善于解决控制的优化问题,连续动作的控制因为精度的要求,动作的数量随着动作维度的增加呈指数型增长,难以用离散的动作来表示。基于Actor-Critic框架的深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法虽然解决了连续动作控制问题,但是仍然存在采样方式缺乏科学理论指导、动作维度较高时的最优动作与非最优动作之间差距被忽视等问题。针对上述问题,提出一种基于DDPG算法的优化采样及精确评价的改进算法,并成功应用于选择顺应性装配机器臂(Selective Compliance Assembly Robot Arm,SCARA)的仿真环境中,与原始的DDPG算法对比,取得了良好的效果,实现了SCARA机器人快速自动定位。
展开更多
关键词
强化
学习
深度
学习
连续
动作
控制
机器臂
在线阅读
下载PDF
职称材料
题名
一种新的连续动作集学习自动机
被引量:
2
1
作者
刘晓
毛宁
机构
中航工业西安航空计算技术研究所
出处
《数据采集与处理》
CSCD
北大核心
2015年第6期1310-1317,共8页
文摘
学习自动机(Learning automation,LA)是一种自适应决策器。其通过与一个随机环境不断交互学习从一个允许的动作集里选择最优的动作。在大多数传统的LA模型中,动作集总是被取作有限的。因此,对于连续参数学习问题,需要将动作空间离散化,并且学习的精度取决于离散化的粒度。本文提出一种新的连续动作集学习自动机(Continuous action-set learning automaton,CALA),其动作集为一个可变区间,同时按照均匀分布方式选择输出动作。学习算法利用来自环境的二值反馈信号对动作区间的端点进行自适应更新。通过一个多模态学习问题的仿真实验,演示了新算法相对于3种现有CALA算法的优越性。
关键词
机器
学习
强化
学习
在线
学习
学习
自动机
连续
动作
集
学习
自动机
Keywords
machine learning
reinforcement learning
online learning
learning automata
continuous action-set learning automata
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
TP202.7 [自动化与计算机技术—检测技术与自动化装置]
在线阅读
下载PDF
职称材料
题名
潜在空间中的策略搜索强化学习方法
2
作者
赵婷婷
王莹
孙威
陈亚瑞
王嫄
杨巨成
机构
天津科技大学人工智能学院
出处
《计算机科学与探索》
CSCD
北大核心
2024年第4期1032-1046,共15页
基金
国家自然科学基金(61976156)
天津市企业科技特派员项目(20YDTPJC00560)。
文摘
策略搜索是深度强化学习领域中一种能够解决大规模连续状态空间和动作空间问题的高效学习方法,被广泛应用在现实问题中。然而,此类方法通常需要花费大量的学习样本和训练时间,且泛化能力较差,学到的策略模型难以泛化至环境中看似微小的变化。为了解决上述问题,提出了一种基于潜在空间的策略搜索强化学习方法。将学习状态表示的思想拓展到动作表示上,即在动作表示的潜在空间中学习策略,再将动作表示映射到真实动作空间中。通过表示学习模型的引入,摒弃端到端的训练方式,将整个强化学习任务划分成大规模的表示模型部分和小规模的策略模型部分,使用无监督的学习方法来学习表示模型,使用策略搜索强化学习方法学习小规模的策略模型。大规模的表示模型能保留应有的泛化性和表达能力,小规模的策略模型有助于减轻策略学习的负担,从而在一定程度上缓解深度强化学习领域中样本利用率低、学习效率低和动作选择泛化性弱的问题。最后,在智能控制任务CarRacing和Cheetah中验证了引入潜在空间中的状态表示和动作表示的有效性。
关键词
无模型
强化
学习
策略模型
状态表示
动作
表示
连续
动作
空间
策略搜索
强化
学习
方法
Keywords
model-free reinforcement learning
policy model
state representations
action representations
continuous action space
policy search reinforcement learning method
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
基于深度强化学习的机械臂多模混合控制
3
作者
李家乐
张建锋
李彬
刘天琅
陈检
机构
西北农林科技大学信息工程学院
出处
《计算机工程与设计》
北大核心
2024年第9期2835-2843,共9页
基金
陕西省重点研发计划基金项目(2023-YBNY-212)
陕西省自然科学基金项目(2021JQ-179)。
文摘
针对基于深度强化学习控制的机械臂动态避障能力不足,在作业过程中存在多任务冲突问题,提出一种基于双重角色和正则化批评者算法(DARC)的多模混合控制方法。将任务分解为多段避障模式,借助人工势场法的斥力引力思想设计奖励函数并分别进行训练;将经过初步训练的多个模式以距离阈值或奖励积累阈值进行切换控制,消除混合控制存在的冲突;结合机械臂单元运动学特点设计具有软体性质的多连杆机械臂平面仿真模型。实验验证所提方法能够有效提升机械臂动态避障能力,避免多任务间的冲突。
关键词
深度
强化
学习
机械臂
双重演员正则化评论家算法(DARC)
奖励机制
动态避障
优先经验回放机制
连续
动作
控制
Keywords
deep reinforcement learning
manipulator
double actors regularized critics algorithm
reward and punishment mecha-nism
dynamic obstacle avoidance
prioritized experience replay
continuous action control
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于强化学习的无人机自主机动决策方法
被引量:
25
4
作者
孙楚
赵辉
王渊
周欢
韩瑾
机构
空军工程大学航空航天工程学院
汾西重工有限责任公司
出处
《火力与指挥控制》
CSCD
北大核心
2019年第4期142-149,共8页
基金
国家自然科学基金(61601505)
航空科学基金资助项目(20155196022)
文摘
提出了一种基于连续动作集强化学习的无人机机动决策方法。通过Actor-Critic强化学习构架下的NRBF神经网络输出状态真实效用值与连续动作控制变量,效用值与动作控制变量的输出层共用隐层以简化网络结构。结合相对熵理论设计隐层节点的自适应调整方法,有效减少了隐层节点数目。对输出动作控制变量,采用基于高斯分布的连续动作选择策略,并依据训练次数调整随机动作控制变量的概率分布,提升了网络对未知策略的探索能力。在3种不同空战态势下的仿真验证了该方法的有效性,结果表明该方法生成的策略鲁棒性较强,动作控制量更加精确。
关键词
无人作战飞机
机动决策
强化
学习
连续
动作
神经网络
Keywords
unmanned combat aerial vehicle
maneuver decision-making
reinforcement learning
continuous action
neural network
分类号
TJ85 [兵器科学与技术—武器系统与运用工程]
在线阅读
下载PDF
职称材料
题名
一种用于连续动作空间的最小二乘行动者-评论家方法
被引量:
9
5
作者
朱斐
刘全
傅启明
伏玉琛
机构
苏州大学计算机科学与技术学院
苏州大学系统生物学研究中心
符号计算与知识工程教育部重点实验室(吉林大学)
出处
《计算机研究与发展》
EI
CSCD
北大核心
2014年第3期548-558,共11页
基金
国家自然科学基金项目(61303108
61373094
+3 种基金
61272005)
江苏省高校自然科学研究项目(13KJB520020)
江苏省自然科学基金项目(BK2012616)
吉林大学符号计算与知识工程教育部重点实验室基金项目(93K172012K04)
文摘
解决具有连续动作空间的问题是当前强化学习领域的一个研究热点和难点.在处理这类问题时,传统的强化学习算法通常利用先验信息对连续动作空间进行离散化处理,然后再求解最优策略.然而,在很多实际应用中,由于缺乏用于离散化处理的先验信息,算法效果会变差甚至算法失效.针对这类问题,提出了一种最小二乘行动者-评论家方法(least square actor-critic algorithm,LSAC),使用函数逼近器近似表示值函数及策略,利用最小二乘法在线动态求解近似值函数参数及近似策略参数,以近似值函数作为评论家指导近似策略参数的求解.将LSAC算法用于解决经典的具有连续动作空间的小车平衡杆问题和mountain car问题,并与Cacla(continuous actor-critic learning automaton)算法和eNAC(episodic natural actor-critic)算法进行比较.结果表明,LSAC算法能有效地解决连续动作空间问题,并具有较优的执行性能.
关键词
强化
学习
行动者-评论家算法
连续
动作
空间
最小二乘法
小车平衡杆问题
MOUNTAIN
car问题
Keywords
reinforcement learning
actor-critic algorithm
continuous action space
least squares method
cart pole balancing
mountain car
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
用于连续时间中策略梯度算法的动作稳定更新算法
被引量:
3
6
作者
宋江帆
李金龙
机构
中国科学技术大学计算机科学与技术学院
出处
《计算机应用研究》
CSCD
北大核心
2023年第10期2928-2932,2944,共6页
文摘
在强化学习中,策略梯度法经常需要通过采样将连续时间问题建模为离散时间问题。为了建模更加精确,需要提高采样频率,然而过高的采样频率可能会使动作改变频率过高,从而降低训练效率。针对这个问题,提出了动作稳定更新算法。该方法使用策略函数输出的改变量计算动作重复的概率,并根据该概率随机地重复或改变动作。在理论上分析了算法性能。之后在九个不同的环境中评估算法的性能,并且将它和已有方法进行了比较。该方法在其中六个环境下超过了现有方法。实验结果表明,动作稳定更新算法可以有效提高策略梯度法在连续时间问题中的训练效率。
关键词
强化
学习
连续
时间
策略梯度
动作
重复
Keywords
reinforcement learning
continuous time
policy gradient
action repetition
分类号
TP389.1 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
基于深度强化学习的居民实时自治最优能量管理策略
被引量:
8
7
作者
叶宇剑
王卉宇
汤奕
Goran STRBAC
机构
东南大学电气工程学院
伦敦帝国理工学院电气与电子工程系
出处
《电力系统自动化》
EI
CSCD
北大核心
2022年第1期110-119,共10页
基金
国家自然科学基金资助项目(51877037)。
文摘
随着居民分布式资源的普及,如何考虑用户多类型设备的运行特性,满足实时自治能量管理需求以达到用户侧经济性最优成为亟待解决的课题。传统基于模型的最优化方法在模型精准构建和应对多重不确定性等方面存在局限性,为此提出一种无模型的基于深度强化学习的实时自治能量管理优化方法。首先,对用户设备进行分类,采用统一的三元组描述其运行特性,并确定相应的能量管理动作;接着,采用长短期记忆神经网络提取环境状态中多源时序数据的未来走势;进而,基于近端策略优化算法,赋能在多维连续-离散混合的动作空间中高效学习最优能量管理策略,在最小化用电成本的同时提升策略对不确定性的适应性;最后,通过实际情境对比现有方法的优化决策效果,验证所提方法的有效性。
关键词
实时自治能量管理优化
不确定性
连续
-离散混合
动作
长短期记忆神经网络
深度
强化
学习
Keywords
real-time autonomous energy management optimization
uncertainties
continuous-discrete mixed actions
long short-term memory neural network
deep reinforcement learning
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
TM73 [电气工程—电力系统及自动化]
在线阅读
下载PDF
职称材料
题名
基于随机加权三重Q学习的异策略最大熵强化学习算法
被引量:
2
8
作者
范静宇
刘全
机构
苏州大学计算机科学与技术学院
苏州大学江苏省计算机信息处理技术重点实验室
吉林大学符号计算与知识工程教育部重点实验室
软件新技术与产业化协同创新中心
出处
《计算机科学》
CSCD
北大核心
2022年第6期335-341,共7页
基金
国家自然科学基金(61772355,61702055,61502323,61502329)
江苏省高等学校自然科学研究重大项目(18KJA520011,17KJA520004)
+2 种基金
吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172014K04,93K172017K18)
苏州市应用基础研究计划工业部分(SYG201422)
江苏省高校优势学科建设工程资助项目。
文摘
强化学习是机器学习中一个重要的分支,随着深度学习的发展,深度强化学习逐渐发展为强化学习研究的重点。因应用广泛且实用性较强,面向连续控制问题的无模型异策略深度强化学习算法备受关注。同基于离散动作的Q学习一样,类行动者-评论家算法会受到动作值高估问题的影响。在类行动者-评论家算法的学习过程中,剪切双Q学习可以在一定程度上解决动作值高估的问题,但同时也引入了一定程度的低估问题。为了进一步解决类行动者-评论家算法中的高低估问题,提出了一种新的随机加权三重Q学习方法。该方法可以更好地解决类行动者-评论家算法中的高低估问题。此外,将这种新的方法与软行动者-评论家算法结合,提出了一种新的基于随机加权三重Q学习的软行动者-评论家算法,该算法在限制Q估计值在真实Q值附近的同时,通过随机加权方法增加Q估计值的随机性,从而有效解决了学习过程中对动作值的高低估问题。实验结果表明,相比SAC算法、DDPG算法、PPO算法与TD3算法等深度强化学习算法,SAC-RWTQ算法可以在gym仿真平台中的多个Mujoco任务上获得更好的表现。
关键词
Q
学习
深度
学习
异策略
强化
学习
连续
动作
空间
最大熵
软行动者—评论家算法
Keywords
Q-learning
Deep learning
Off-policy reinforcement learning
Continuous action space
Maximum entropy
Soft actor critic algorithm
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
基于CARLA-PSO组合模型的智能控制器参数学习优化
被引量:
4
9
作者
谷学静
张明儒
王志良
郭宇承
机构
华北理工大学电气工程学院
北京科技大学计算机与通信工程学院
华北理工大学轻工学院
出处
《计算机应用研究》
CSCD
北大核心
2019年第3期677-680,共4页
基金
国家自然科学基金资助项目(61170117)
国家重点研发计划资助项目(2016YFB1001404)
河北省自然科学基金高端钢铁冶金联合研究基金专项项目(F2017209120)
文摘
对连续动作强化学习自动机(CARLA)进行了改进,应用改进后的CARLA结合粒子群优化算法(PSO)优化PID参数。以CARLA为基础,建立了CARLA和PSO的组合优化学习模型CARLA-PSO,该模型包含CAR-LA学习环路和PSO学习环路两个部分,通过优化策略选择器进行学习环路的选择,通过与环境进行相互作用,获得最优控制。对连铸结晶器液位控制进行了仿真实验,实验结果表明,CARLA-PSO在进行PID参数优化时寻优效率高,全局搜索能力强,能够达到理想的控制效果,具有较好的应用前景。
关键词
连续动作学习强化自动机
粒子群优化算法
智能PID控制器
结晶器液位
Keywords
continuous action reinforcement learning automata
particle swarm optimization
intelligent PID controller
mould level
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
TP273 [自动化与计算机技术—检测技术与自动化装置]
在线阅读
下载PDF
职称材料
题名
连续空间的递归最小二乘行动者—评论家算法
被引量:
2
10
作者
朱文文
金玉净
伏玉琛
宋绪文
机构
苏州大学计算机科学与技术学院
出处
《计算机应用研究》
CSCD
北大核心
2014年第7期1994-1997,2000,共5页
基金
国家自然科学基金资助项目(61070122
61070223
+4 种基金
61373094
60970015)
江苏省自然科学基金资助项目(BK2009116)
江苏省高校自然科学研究项目(09KJA520002)
吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172012K04)
文摘
传统的行动者—评论家(actor-critic,AC)算法用在连续空间时,数据利用率低、收敛慢,而现实世界中采样往往需要昂贵的代价,因此提出了一种新的连续空间递归最小二乘AC算法,能够充分利用数据,提高学习预测能力。该方法用高斯径向基函数对连续的状态空间进行编码,评论家部分改用带资格迹的递归最小二乘时间差分方法,而行动者部分用策略梯度方法,在连续动作空间中进行策略搜索。Mountain Car问题的仿真结果表明该算法具有较好的收敛结果。
关键词
强化
学习
行动者—评论家方法
连续
状态
动作
空间
递归最小二乘
策略梯度
高斯径向基函数
Keywords
reinforcement learning
actor-critic method
continuous state and action space
recursive least-squares
policy gradient
Gaussian radial basis functions
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
TP301.6 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
基于KL散度的策略优化
被引量:
10
11
作者
李建国
赵海涛
孙韶媛
机构
华东理工大学信息科学与工程学院
东华大学信息科学与技术学院
出处
《计算机科学》
CSCD
北大核心
2019年第6期212-217,共6页
基金
国家自然科学基金(61375007)
上海市科委基础研究项目(15JC1400600)资助
文摘
强化学习(Reinforcement Learning,RL)在复杂的优化和控制问题中具有广泛的应用前景。针对传统的策略梯度方法在处理高维的连续动作空间环境时无法有效学习复杂策略,导致收敛速度慢甚至无法收敛的问题,提出了一种在线学习的基于KL散度的策略优化算法(KL-divergence-based Policy Optimization,KLPO)。在Actor-Critic方法的基础上,通过引入KL散度构造惩罚项,将“新”“旧”策略间的散度结合到损失函数中,以对Actor部分的策略更新进行优化;并进一步利用KL散度控制算法更新学习步长,以确保策略每次在由KL散度定义的合理范围内以最大学习步长进行更新。分别在经典的倒立摆仿真环境和公开的连续动作空间的机器人运动环境中对所提算法进行了测试。实验结果表明,KLPO算法能够更好地学习复杂的策略,收敛速度快,并且可获取更高的回报。
关键词
强化
学习
KL散度
策略优化
连续
动作
空间
Keywords
Reinforcement learning
KL-divergence
Policy optimization
Continuous action space
分类号
TP301 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
优化深度确定性策略梯度算法
被引量:
12
12
作者
柯丰恺
周唯倜
赵大兴
机构
湖北工业大学机械工程学院
出处
《计算机工程与应用》
CSCD
北大核心
2019年第7期151-156,233,共7页
基金
国家自然科学基金(No.51675166)
文摘
深度强化学习善于解决控制的优化问题,连续动作的控制因为精度的要求,动作的数量随着动作维度的增加呈指数型增长,难以用离散的动作来表示。基于Actor-Critic框架的深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法虽然解决了连续动作控制问题,但是仍然存在采样方式缺乏科学理论指导、动作维度较高时的最优动作与非最优动作之间差距被忽视等问题。针对上述问题,提出一种基于DDPG算法的优化采样及精确评价的改进算法,并成功应用于选择顺应性装配机器臂(Selective Compliance Assembly Robot Arm,SCARA)的仿真环境中,与原始的DDPG算法对比,取得了良好的效果,实现了SCARA机器人快速自动定位。
关键词
强化
学习
深度
学习
连续
动作
控制
机器臂
Keywords
reinforcement learning
deep learning
continuous action control
robot arm
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
TP241 [自动化与计算机技术—检测技术与自动化装置]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
一种新的连续动作集学习自动机
刘晓
毛宁
《数据采集与处理》
CSCD
北大核心
2015
2
在线阅读
下载PDF
职称材料
2
潜在空间中的策略搜索强化学习方法
赵婷婷
王莹
孙威
陈亚瑞
王嫄
杨巨成
《计算机科学与探索》
CSCD
北大核心
2024
0
在线阅读
下载PDF
职称材料
3
基于深度强化学习的机械臂多模混合控制
李家乐
张建锋
李彬
刘天琅
陈检
《计算机工程与设计》
北大核心
2024
0
在线阅读
下载PDF
职称材料
4
基于强化学习的无人机自主机动决策方法
孙楚
赵辉
王渊
周欢
韩瑾
《火力与指挥控制》
CSCD
北大核心
2019
25
在线阅读
下载PDF
职称材料
5
一种用于连续动作空间的最小二乘行动者-评论家方法
朱斐
刘全
傅启明
伏玉琛
《计算机研究与发展》
EI
CSCD
北大核心
2014
9
在线阅读
下载PDF
职称材料
6
用于连续时间中策略梯度算法的动作稳定更新算法
宋江帆
李金龙
《计算机应用研究》
CSCD
北大核心
2023
3
在线阅读
下载PDF
职称材料
7
基于深度强化学习的居民实时自治最优能量管理策略
叶宇剑
王卉宇
汤奕
Goran STRBAC
《电力系统自动化》
EI
CSCD
北大核心
2022
8
在线阅读
下载PDF
职称材料
8
基于随机加权三重Q学习的异策略最大熵强化学习算法
范静宇
刘全
《计算机科学》
CSCD
北大核心
2022
2
在线阅读
下载PDF
职称材料
9
基于CARLA-PSO组合模型的智能控制器参数学习优化
谷学静
张明儒
王志良
郭宇承
《计算机应用研究》
CSCD
北大核心
2019
4
在线阅读
下载PDF
职称材料
10
连续空间的递归最小二乘行动者—评论家算法
朱文文
金玉净
伏玉琛
宋绪文
《计算机应用研究》
CSCD
北大核心
2014
2
在线阅读
下载PDF
职称材料
11
基于KL散度的策略优化
李建国
赵海涛
孙韶媛
《计算机科学》
CSCD
北大核心
2019
10
在线阅读
下载PDF
职称材料
12
优化深度确定性策略梯度算法
柯丰恺
周唯倜
赵大兴
《计算机工程与应用》
CSCD
北大核心
2019
12
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部