期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
7
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于精英指导和随机搜索的进化强化学习
1
作者
邸剑
万雪
姜丽梅
《系统仿真学报》
北大核心
2025年第11期2877-2887,共11页
针对进化强化学习因样本效率低、耦合方式单一及收敛性差而导致的性能与扩展性受限问题,提出一种基于精英梯度指导和双重随机搜索的改进算法。通过在强化策略训练时引入携带进化信息的精英策略梯度指导,纠正了强化策略梯度更新的方向;...
针对进化强化学习因样本效率低、耦合方式单一及收敛性差而导致的性能与扩展性受限问题,提出一种基于精英梯度指导和双重随机搜索的改进算法。通过在强化策略训练时引入携带进化信息的精英策略梯度指导,纠正了强化策略梯度更新的方向;采用双重随机搜索替换原有的进化组件,降低算法复杂性的同时使得策略搜索在参数空间进行有意义和可控的搜索;引入完全替换信息交易有效地平衡了强化策略和进化策略的学习和探索。实验结果表明:该方法相比于经典的进化强化学习方法在探索力、鲁棒性和收敛性方面具有一定的提升。
展开更多
关键词
进化强化学习
深度
强化
学习
进化
算法
连续控制
精英梯度指导
在线阅读
下载PDF
职称材料
基于随机对称搜索的进化强化学习算法
2
作者
邸剑
万雪
姜丽梅
《计算机工程与科学》
北大核心
2025年第5期912-920,共9页
进化算法的引入极大地提高了强化学习算法的性能。然而,现有的基于进化强化学习ERL的算法还存在易陷入欺骗性奖励、易收敛到局部最优和稳定性差的问题。为了解决这些问题,提出了一种随机对称搜索策略,直接作用于策略网络参数,在策略网...
进化算法的引入极大地提高了强化学习算法的性能。然而,现有的基于进化强化学习ERL的算法还存在易陷入欺骗性奖励、易收敛到局部最优和稳定性差的问题。为了解决这些问题,提出了一种随机对称搜索策略,直接作用于策略网络参数,在策略网络参数中心的基础上由最优策略网络参数指导全局策略网络参数优化更新,同时辅以梯度优化,引导智能体进行多元探索。在MuJoCo的5个机器人运动连续控制任务中的实验结果表明,提出的算法性能优于以前的进化强化学习算法,且具有更快的收敛速度。
展开更多
关键词
深度
强化
学习
进化
算法
进化强化学习
随机对称搜索
在线阅读
下载PDF
职称材料
结合元学习和安全区域探索的进化强化学习方法
3
作者
李晓益
胡滨
+1 位作者
秦进
彭安浪
《计算机工程与应用》
北大核心
2025年第1期361-367,共7页
最近提出的进化强化学习(evolutionary reinforcement learning,ERL)框架表明了利用进化算法提高强化学习的探索能力对性能提升的好处。然而,现有的基于ERL的方法并没有完全解决进化算法中突变的可伸缩性问题且由于进化算法本身的限制使...
最近提出的进化强化学习(evolutionary reinforcement learning,ERL)框架表明了利用进化算法提高强化学习的探索能力对性能提升的好处。然而,现有的基于ERL的方法并没有完全解决进化算法中突变的可伸缩性问题且由于进化算法本身的限制使得ERL解决问题的速度较为缓慢。为了使算法每一步的探索都被限制在安全区域中且能在较短的时间内收敛,运用元学习的思想,预训练一个初始的种群,这个种群只需要经过几次进化就能得到任务中不错的效果。将预训练过后的种群用于处理任务,在此过程中,利用敏感度调整种群突变的范围,限制种群在安全区域内进行突变,确保种群的突变不会带来无法预料的后果。该方法在来自OpenAI gym中的五种机器人运动中进行了评估。最终在所有测试的环境中,该方法在以ERL、CEM-RL以及两种最先进的RL算法、PPO和TD3为基线的比较中,取得了具有竞争性的效果。
展开更多
关键词
进化强化学习
元
学习
预训练
安全区域
突变算子
在线阅读
下载PDF
职称材料
基于内在奖励策略引导的自适应近端蒸馏进化强化学习算法的变速箱装配线AGV路径规划
4
作者
王宸
孙楠
+2 位作者
邹春龙
黄玉春
王生怀
《计算机集成制造系统》
北大核心
2025年第6期2059-2070,共12页
针对自动引导运输车(AGV)面对混合U型障碍与动态障碍时路径规划效率低的问题,提出一种基于内在奖励策略引导的自适应近端蒸馏进化强化学习算法。在适应度函数中引入随机网络蒸馏模型作为内在奖励,以提升算法评估精英策略的多样性;设计...
针对自动引导运输车(AGV)面对混合U型障碍与动态障碍时路径规划效率低的问题,提出一种基于内在奖励策略引导的自适应近端蒸馏进化强化学习算法。在适应度函数中引入随机网络蒸馏模型作为内在奖励,以提升算法评估精英策略的多样性;设计自适应内在奖励权重因子α平衡算法探索与利用的能力,帮助AGV在不确定性强的动态障碍环境中选择最优策略。将变异算子的协方差参数通过协方差矩阵自适应进化策略进行优化,从而降低参数的敏感程度。通过与多种算法分别在3种不同的环境中对比表明,改进后的算法在U型分装线、动态障碍、变速箱装配线环境中的路径分别减少12.65%,13.44%,12.87%,相比原始算法的收敛速度更快,且在复杂环境中具有较强的鲁棒性。
展开更多
关键词
U型障碍
进化强化学习
内在奖励
自适应奖励权重
路径规划
在线阅读
下载PDF
职称材料
基于自适应噪声的最大熵进化强化学习方法
被引量:
6
5
作者
王君逸
王志
+1 位作者
李华雄
陈春林
《自动化学报》
EI
CAS
CSCD
北大核心
2023年第1期54-66,共13页
近年来,进化策略由于其无梯度优化和高并行化效率等优点,在深度强化学习领域得到了广泛的应用.然而,传统基于进化策略的深度强化学习方法存在着学习速度慢、容易收敛到局部最优和鲁棒性较弱等问题.为此,提出了一种基于自适应噪声的最大...
近年来,进化策略由于其无梯度优化和高并行化效率等优点,在深度强化学习领域得到了广泛的应用.然而,传统基于进化策略的深度强化学习方法存在着学习速度慢、容易收敛到局部最优和鲁棒性较弱等问题.为此,提出了一种基于自适应噪声的最大熵进化强化学习方法.首先,引入了一种进化策略的改进办法,在“优胜”的基础上加强了“劣汰”,从而提高进化强化学习的收敛速度;其次,在目标函数中引入了策略最大熵正则项,来保证策略的随机性进而鼓励智能体对新策略的探索;最后,提出了自适应噪声控制的方式,根据当前进化情形智能化调整进化策略的搜索范围,进而减少对先验知识的依赖并提升算法的鲁棒性.实验结果表明,该方法较之传统方法在学习速度、最优性收敛和鲁棒性上有比较明显的提升.
展开更多
关键词
深度
强化
学习
进化
策略
进化强化学习
最大熵
自适应噪声
在线阅读
下载PDF
职称材料
基于EA-RL算法的分布式能源集群调度方法
6
作者
程小华
王泽夫
+2 位作者
曾君
曾婧瑶
谭豪杰
《华南理工大学学报(自然科学版)》
北大核心
2025年第1期1-9,共9页
目前对于分布式能源集群调度的研究大多局限于单一场景,同时也缺少高效、准确的算法。该文针对以上问题提出了一种基于进化算法经验指导的深度强化学习(EA-RL)的分布式能源集群多场景调度方法。分别对分布式能源集群中的电源、储能、负...
目前对于分布式能源集群调度的研究大多局限于单一场景,同时也缺少高效、准确的算法。该文针对以上问题提出了一种基于进化算法经验指导的深度强化学习(EA-RL)的分布式能源集群多场景调度方法。分别对分布式能源集群中的电源、储能、负荷进行个体建模,并基于个体调度模型建立了包含辅助调峰调频的多场景分布式能源集群优化调度模型;基于进化强化学习算法框架,提出了一种EA-RL算法,该算法融合了遗传算法(GA)与深度确定性策略梯度(DDPG)算法,以经验序列作为遗传算法个体进行交叉、变异、选择,筛选出优质经验加入DDPG算法经验池对智能体进行指导训练以提高算法的搜索效率和收敛性;根据多场景调度模型构建分布式能源集群多场景调度问题的状态空间和动作空间,再以最小化调度成本、最小化辅助服务调度指令偏差、最小化联络线越限功率以及最小化源荷功率差构建奖励函数,完成强化学习模型的建立;为验证所提算法模型的有效性,基于多场景的仿真算例对调度智能体进行离线训练,形成能够适应电网多场景的调度智能体,通过在线决策的方式进行验证,根据决策结果评估其调度决策能力,并通过与DDPG算法的对比验证算法的有效性,最后对训练完成的智能体进行了连续60d的加入不同程度扰动的在线决策测试,验证智能体的后效性和鲁棒性。
展开更多
关键词
分布式能源集群
深度
强化
学习
进化强化学习
算法
多场景一体化调度
在线阅读
下载PDF
职称材料
基于变体天牛须改进QL的AGV路径规划算法研究
7
作者
黄玉春
宋俊
+3 位作者
王宸
孙楠
王勤
钟毓宁
《制造技术与机床》
北大核心
2024年第10期89-97,共9页
针对Q-learning(QL)在解决AGV(automated guided vehicle)路径规划时前期收敛速度慢、后期易陷入局部最优等问题,提出了一种变体天牛须改进QL的进化强化学习算法(BAS-QL)。BAS-QL主要特点有三方面,首先使用变体天牛须算法对Q表格进行初...
针对Q-learning(QL)在解决AGV(automated guided vehicle)路径规划时前期收敛速度慢、后期易陷入局部最优等问题,提出了一种变体天牛须改进QL的进化强化学习算法(BAS-QL)。BAS-QL主要特点有三方面,首先使用变体天牛须算法对Q表格进行初始化,加快AGV路径规划的前期寻优速度;然后使用渐变衰减Epsilon-Greedy搜索策略,利用衰减Epsilon值来避免算法在后期陷入局部最优避免出现结果难收敛的现象。最后求解AGV行走的最优路径,并通过实验对BAS-QL算法进行验证。在n=15和n=20栅格图对比实验中,BAS-QL表现出平均耗时短、平均路程短和平均迭代次数少的特点。说明该方法在智能规划路径的同时还可以有效提升AGV的路径规划效率。
展开更多
关键词
进化强化学习
天牛须搜索
AGV路径规划
在线阅读
下载PDF
职称材料
题名
基于精英指导和随机搜索的进化强化学习
1
作者
邸剑
万雪
姜丽梅
机构
华北电力大学(保定)计算机系
河北省能源电力知识计算重点实验室
复杂能源系统智能计算教育部工程研究中心
出处
《系统仿真学报》
北大核心
2025年第11期2877-2887,共11页
基金
华北电力大学中央高校基本科研业务费专项资金(2022MS102)。
文摘
针对进化强化学习因样本效率低、耦合方式单一及收敛性差而导致的性能与扩展性受限问题,提出一种基于精英梯度指导和双重随机搜索的改进算法。通过在强化策略训练时引入携带进化信息的精英策略梯度指导,纠正了强化策略梯度更新的方向;采用双重随机搜索替换原有的进化组件,降低算法复杂性的同时使得策略搜索在参数空间进行有意义和可控的搜索;引入完全替换信息交易有效地平衡了强化策略和进化策略的学习和探索。实验结果表明:该方法相比于经典的进化强化学习方法在探索力、鲁棒性和收敛性方面具有一定的提升。
关键词
进化强化学习
深度
强化
学习
进化
算法
连续控制
精英梯度指导
Keywords
evolutionary reinforcement learning
deep reinforcement learning
evolutionary algorithm
continuous control
elite gradient instruction
分类号
TP399 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于随机对称搜索的进化强化学习算法
2
作者
邸剑
万雪
姜丽梅
机构
华北电力大学计算机系
河北省能源电力知识计算重点实验室
复杂能源系统智能计算教育部工程研究中心
出处
《计算机工程与科学》
北大核心
2025年第5期912-920,共9页
基金
华北电力大学中央高校基本科研业务费专项资金(2022MS102)。
文摘
进化算法的引入极大地提高了强化学习算法的性能。然而,现有的基于进化强化学习ERL的算法还存在易陷入欺骗性奖励、易收敛到局部最优和稳定性差的问题。为了解决这些问题,提出了一种随机对称搜索策略,直接作用于策略网络参数,在策略网络参数中心的基础上由最优策略网络参数指导全局策略网络参数优化更新,同时辅以梯度优化,引导智能体进行多元探索。在MuJoCo的5个机器人运动连续控制任务中的实验结果表明,提出的算法性能优于以前的进化强化学习算法,且具有更快的收敛速度。
关键词
深度
强化
学习
进化
算法
进化强化学习
随机对称搜索
Keywords
deep reinforcement learning
evolutionary algorithm
evolutionary reinforcement learning
stochastic symmetric search
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
结合元学习和安全区域探索的进化强化学习方法
3
作者
李晓益
胡滨
秦进
彭安浪
机构
贵州大学计算机科学与技术学院公共大数据国家重点实验室
贵州大学计算机科学与技术学院
贵州兆信数码技术有限公司
出处
《计算机工程与应用》
北大核心
2025年第1期361-367,共7页
基金
贵州省科技计划项目([2020]1Y275)
贵州省科技计划项目(黔科合支撑[2022]一般267)
国家自然科学基金(62066006)。
文摘
最近提出的进化强化学习(evolutionary reinforcement learning,ERL)框架表明了利用进化算法提高强化学习的探索能力对性能提升的好处。然而,现有的基于ERL的方法并没有完全解决进化算法中突变的可伸缩性问题且由于进化算法本身的限制使得ERL解决问题的速度较为缓慢。为了使算法每一步的探索都被限制在安全区域中且能在较短的时间内收敛,运用元学习的思想,预训练一个初始的种群,这个种群只需要经过几次进化就能得到任务中不错的效果。将预训练过后的种群用于处理任务,在此过程中,利用敏感度调整种群突变的范围,限制种群在安全区域内进行突变,确保种群的突变不会带来无法预料的后果。该方法在来自OpenAI gym中的五种机器人运动中进行了评估。最终在所有测试的环境中,该方法在以ERL、CEM-RL以及两种最先进的RL算法、PPO和TD3为基线的比较中,取得了具有竞争性的效果。
关键词
进化强化学习
元
学习
预训练
安全区域
突变算子
Keywords
evolutionary reinforcement learning
meta-learning
pre-training
safe region
mutation operator
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
基于内在奖励策略引导的自适应近端蒸馏进化强化学习算法的变速箱装配线AGV路径规划
4
作者
王宸
孙楠
邹春龙
黄玉春
王生怀
机构
湖北汽车工业学院机械工程学院
中国工程科技十堰产业技术研究院
上海大学上海市智能制造与机器人重点实验室
出处
《计算机集成制造系统》
北大核心
2025年第6期2059-2070,共12页
基金
国家自然科学基金资助项目(51475150)
湖北省重点研发计划资助项目(2021BAA056)
+1 种基金
湖北省高等学校中青年科技创新团队计划资助项目(T20200018)
湖北汽车工业学院博士基金资助项目(BK201905)。
文摘
针对自动引导运输车(AGV)面对混合U型障碍与动态障碍时路径规划效率低的问题,提出一种基于内在奖励策略引导的自适应近端蒸馏进化强化学习算法。在适应度函数中引入随机网络蒸馏模型作为内在奖励,以提升算法评估精英策略的多样性;设计自适应内在奖励权重因子α平衡算法探索与利用的能力,帮助AGV在不确定性强的动态障碍环境中选择最优策略。将变异算子的协方差参数通过协方差矩阵自适应进化策略进行优化,从而降低参数的敏感程度。通过与多种算法分别在3种不同的环境中对比表明,改进后的算法在U型分装线、动态障碍、变速箱装配线环境中的路径分别减少12.65%,13.44%,12.87%,相比原始算法的收敛速度更快,且在复杂环境中具有较强的鲁棒性。
关键词
U型障碍
进化强化学习
内在奖励
自适应奖励权重
路径规划
Keywords
U-shaped obstacles
evolutionary reinforcement learning
intrinsic reward
adaptive reward weights
path planning
分类号
TP23 [自动化与计算机技术—检测技术与自动化装置]
TP18 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
基于自适应噪声的最大熵进化强化学习方法
被引量:
6
5
作者
王君逸
王志
李华雄
陈春林
机构
南京大学控制科学与智能工程系
出处
《自动化学报》
EI
CAS
CSCD
北大核心
2023年第1期54-66,共13页
基金
国家自然科学基金(62006111,62073160,62176116)
江苏省自然科学基金(BK20200330)资助。
文摘
近年来,进化策略由于其无梯度优化和高并行化效率等优点,在深度强化学习领域得到了广泛的应用.然而,传统基于进化策略的深度强化学习方法存在着学习速度慢、容易收敛到局部最优和鲁棒性较弱等问题.为此,提出了一种基于自适应噪声的最大熵进化强化学习方法.首先,引入了一种进化策略的改进办法,在“优胜”的基础上加强了“劣汰”,从而提高进化强化学习的收敛速度;其次,在目标函数中引入了策略最大熵正则项,来保证策略的随机性进而鼓励智能体对新策略的探索;最后,提出了自适应噪声控制的方式,根据当前进化情形智能化调整进化策略的搜索范围,进而减少对先验知识的依赖并提升算法的鲁棒性.实验结果表明,该方法较之传统方法在学习速度、最优性收敛和鲁棒性上有比较明显的提升.
关键词
深度
强化
学习
进化
策略
进化强化学习
最大熵
自适应噪声
Keywords
Deep reinforcement learning
evolution strategies
evolutionary reinforcement learning
maximum entropy
adaptive noise
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
基于EA-RL算法的分布式能源集群调度方法
6
作者
程小华
王泽夫
曾君
曾婧瑶
谭豪杰
机构
华南理工大学电力学院
出处
《华南理工大学学报(自然科学版)》
北大核心
2025年第1期1-9,共9页
基金
国家自然科学基金项目(62173148,52377186)
广东省自然科学基金项目(2022A1515010150,2023A1515010184)
广东省基础与应用基础研究基金项目(2022A1515240026)。
文摘
目前对于分布式能源集群调度的研究大多局限于单一场景,同时也缺少高效、准确的算法。该文针对以上问题提出了一种基于进化算法经验指导的深度强化学习(EA-RL)的分布式能源集群多场景调度方法。分别对分布式能源集群中的电源、储能、负荷进行个体建模,并基于个体调度模型建立了包含辅助调峰调频的多场景分布式能源集群优化调度模型;基于进化强化学习算法框架,提出了一种EA-RL算法,该算法融合了遗传算法(GA)与深度确定性策略梯度(DDPG)算法,以经验序列作为遗传算法个体进行交叉、变异、选择,筛选出优质经验加入DDPG算法经验池对智能体进行指导训练以提高算法的搜索效率和收敛性;根据多场景调度模型构建分布式能源集群多场景调度问题的状态空间和动作空间,再以最小化调度成本、最小化辅助服务调度指令偏差、最小化联络线越限功率以及最小化源荷功率差构建奖励函数,完成强化学习模型的建立;为验证所提算法模型的有效性,基于多场景的仿真算例对调度智能体进行离线训练,形成能够适应电网多场景的调度智能体,通过在线决策的方式进行验证,根据决策结果评估其调度决策能力,并通过与DDPG算法的对比验证算法的有效性,最后对训练完成的智能体进行了连续60d的加入不同程度扰动的在线决策测试,验证智能体的后效性和鲁棒性。
关键词
分布式能源集群
深度
强化
学习
进化强化学习
算法
多场景一体化调度
Keywords
distributed energy cluster
deep reinforcement learning
evolutionary reinforcement learning algorithm
integrated scheduling for multiple scenarios
分类号
TM734 [电气工程—电力系统及自动化]
在线阅读
下载PDF
职称材料
题名
基于变体天牛须改进QL的AGV路径规划算法研究
7
作者
黄玉春
宋俊
王宸
孙楠
王勤
钟毓宁
机构
湖北汽车工业学院机械工程学院
中国工程科技十堰产业技术研究院
湖北万润新能源科技股份有限公司
湖北开放大学
出处
《制造技术与机床》
北大核心
2024年第10期89-97,共9页
基金
国家自然科学基金项目(51475150)
湖北省高等学校中青年科技创新团队计划项目(T20200018)
+3 种基金
湖北省社科基金项目(21Q174)
湖北汽车工业学院博士基金项目(BK201905)
湖北省部共建精密电子制造技术与装备国家重点实验室基金项目(JMDZ202321)
湖北省教育厅科学技术研究计划指导性项目(B2019080)。
文摘
针对Q-learning(QL)在解决AGV(automated guided vehicle)路径规划时前期收敛速度慢、后期易陷入局部最优等问题,提出了一种变体天牛须改进QL的进化强化学习算法(BAS-QL)。BAS-QL主要特点有三方面,首先使用变体天牛须算法对Q表格进行初始化,加快AGV路径规划的前期寻优速度;然后使用渐变衰减Epsilon-Greedy搜索策略,利用衰减Epsilon值来避免算法在后期陷入局部最优避免出现结果难收敛的现象。最后求解AGV行走的最优路径,并通过实验对BAS-QL算法进行验证。在n=15和n=20栅格图对比实验中,BAS-QL表现出平均耗时短、平均路程短和平均迭代次数少的特点。说明该方法在智能规划路径的同时还可以有效提升AGV的路径规划效率。
关键词
进化强化学习
天牛须搜索
AGV路径规划
Keywords
evolutionary reinforcement learning
beetle antennae search
AGV path planning
分类号
TP301 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于精英指导和随机搜索的进化强化学习
邸剑
万雪
姜丽梅
《系统仿真学报》
北大核心
2025
0
在线阅读
下载PDF
职称材料
2
基于随机对称搜索的进化强化学习算法
邸剑
万雪
姜丽梅
《计算机工程与科学》
北大核心
2025
0
在线阅读
下载PDF
职称材料
3
结合元学习和安全区域探索的进化强化学习方法
李晓益
胡滨
秦进
彭安浪
《计算机工程与应用》
北大核心
2025
0
在线阅读
下载PDF
职称材料
4
基于内在奖励策略引导的自适应近端蒸馏进化强化学习算法的变速箱装配线AGV路径规划
王宸
孙楠
邹春龙
黄玉春
王生怀
《计算机集成制造系统》
北大核心
2025
0
在线阅读
下载PDF
职称材料
5
基于自适应噪声的最大熵进化强化学习方法
王君逸
王志
李华雄
陈春林
《自动化学报》
EI
CAS
CSCD
北大核心
2023
6
在线阅读
下载PDF
职称材料
6
基于EA-RL算法的分布式能源集群调度方法
程小华
王泽夫
曾君
曾婧瑶
谭豪杰
《华南理工大学学报(自然科学版)》
北大核心
2025
0
在线阅读
下载PDF
职称材料
7
基于变体天牛须改进QL的AGV路径规划算法研究
黄玉春
宋俊
王宸
孙楠
王勤
钟毓宁
《制造技术与机床》
北大核心
2024
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部