检索结果-维普期刊中文期刊服务平台

基于精英指导和随机搜索的进化强化学习: 1; 作者邸剑万雪姜丽梅《系统仿真学报》北大核心 2025年第11期2877-2887,共11页; 针对进化强化学习因样本效率低、耦合方式单一及收敛性差而导致的性能与扩展性受限问题,提出一种基于精英梯度指导和双重随机搜索的改进算法。通过在强化策略训练时引入携带进化信息的精英策略梯度指导,纠正了强化策略梯度更新的方向;... 展开更多; 关键词进化强化学习深度强化学习进化算法连续控制精英梯度指导; 在线阅读下载PDF 职称材料

基于随机对称搜索的进化强化学习算法: 2; 作者邸剑万雪姜丽梅《计算机工程与科学》北大核心 2025年第5期912-920,共9页; 进化算法的引入极大地提高了强化学习算法的性能。然而,现有的基于进化强化学习ERL的算法还存在易陷入欺骗性奖励、易收敛到局部最优和稳定性差的问题。为了解决这些问题,提出了一种随机对称搜索策略,直接作用于策略网络参数,在策略网... 展开更多; 关键词深度强化学习进化算法进化强化学习随机对称搜索; 在线阅读下载PDF 职称材料

结合元学习和安全区域探索的进化强化学习方法: 3; 作者李晓益胡滨 +1 位作者秦进彭安浪《计算机工程与应用》北大核心 2025年第1期361-367,共7页; 最近提出的进化强化学习(evolutionary reinforcement learning,ERL)框架表明了利用进化算法提高强化学习的探索能力对性能提升的好处。然而,现有的基于ERL的方法并没有完全解决进化算法中突变的可伸缩性问题且由于进化算法本身的限制使... 展开更多; 关键词进化强化学习元学习预训练安全区域突变算子; 在线阅读下载PDF 职称材料

基于内在奖励策略引导的自适应近端蒸馏进化强化学习算法的变速箱装配线AGV路径规划: 4; 作者王宸孙楠 +2 位作者邹春龙黄玉春王生怀《计算机集成制造系统》北大核心 2025年第6期2059-2070,共12页; 针对自动引导运输车(AGV)面对混合U型障碍与动态障碍时路径规划效率低的问题,提出一种基于内在奖励策略引导的自适应近端蒸馏进化强化学习算法。在适应度函数中引入随机网络蒸馏模型作为内在奖励,以提升算法评估精英策略的多样性;设计... 展开更多; 关键词 U型障碍进化强化学习内在奖励自适应奖励权重路径规划; 在线阅读下载PDF 职称材料

基于自适应噪声的最大熵进化强化学习方法被引量：6: 5; 作者王君逸王志 +1 位作者李华雄陈春林《自动化学报》 EI CAS CSCD 北大核心 2023年第1期54-66,共13页; 近年来,进化策略由于其无梯度优化和高并行化效率等优点,在深度强化学习领域得到了广泛的应用.然而,传统基于进化策略的深度强化学习方法存在着学习速度慢、容易收敛到局部最优和鲁棒性较弱等问题.为此,提出了一种基于自适应噪声的最大... 展开更多; 关键词深度强化学习进化策略进化强化学习最大熵自适应噪声; 在线阅读下载PDF 职称材料

基于EA-RL算法的分布式能源集群调度方法: 6; 作者程小华王泽夫 +2 位作者曾君曾婧瑶谭豪杰《华南理工大学学报(自然科学版)》北大核心 2025年第1期1-9,共9页; 目前对于分布式能源集群调度的研究大多局限于单一场景,同时也缺少高效、准确的算法。该文针对以上问题提出了一种基于进化算法经验指导的深度强化学习(EA-RL)的分布式能源集群多场景调度方法。分别对分布式能源集群中的电源、储能、负... 展开更多; 关键词分布式能源集群深度强化学习进化强化学习算法多场景一体化调度; 在线阅读下载PDF 职称材料

基于变体天牛须改进QL的AGV路径规划算法研究: 7; 作者黄玉春宋俊 +3 位作者王宸孙楠王勤钟毓宁《制造技术与机床》北大核心 2024年第10期89-97,共9页; 针对Q-learning(QL)在解决AGV(automated guided vehicle)路径规划时前期收敛速度慢、后期易陷入局部最优等问题,提出了一种变体天牛须改进QL的进化强化学习算法(BAS-QL)。BAS-QL主要特点有三方面,首先使用变体天牛须算法对Q表格进行初... 展开更多; 关键词进化强化学习天牛须搜索 AGV路径规划; 在线阅读下载PDF 职称材料

题名基于精英指导和随机搜索的进化强化学习: 1; 作者邸剑万雪姜丽梅; 机构华北电力大学(保定)计算机系河北省能源电力知识计算重点实验室复杂能源系统智能计算教育部工程研究中心; 出处《系统仿真学报》北大核心 2025年第11期2877-2887,共11页; 基金华北电力大学中央高校基本科研业务费专项资金(2022MS102)。; 文摘针对进化强化学习因样本效率低、耦合方式单一及收敛性差而导致的性能与扩展性受限问题,提出一种基于精英梯度指导和双重随机搜索的改进算法。通过在强化策略训练时引入携带进化信息的精英策略梯度指导,纠正了强化策略梯度更新的方向;采用双重随机搜索替换原有的进化组件,降低算法复杂性的同时使得策略搜索在参数空间进行有意义和可控的搜索;引入完全替换信息交易有效地平衡了强化策略和进化策略的学习和探索。实验结果表明:该方法相比于经典的进化强化学习方法在探索力、鲁棒性和收敛性方面具有一定的提升。; 关键词进化强化学习深度强化学习进化算法连续控制精英梯度指导; Keywords evolutionary reinforcement learning deep reinforcement learning evolutionary algorithm continuous control elite gradient instruction; 分类号 TP399 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于随机对称搜索的进化强化学习算法: 2; 作者邸剑万雪姜丽梅; 机构华北电力大学计算机系河北省能源电力知识计算重点实验室复杂能源系统智能计算教育部工程研究中心; 出处《计算机工程与科学》北大核心 2025年第5期912-920,共9页; 基金华北电力大学中央高校基本科研业务费专项资金(2022MS102)。; 文摘进化算法的引入极大地提高了强化学习算法的性能。然而,现有的基于进化强化学习ERL的算法还存在易陷入欺骗性奖励、易收敛到局部最优和稳定性差的问题。为了解决这些问题,提出了一种随机对称搜索策略,直接作用于策略网络参数,在策略网络参数中心的基础上由最优策略网络参数指导全局策略网络参数优化更新,同时辅以梯度优化,引导智能体进行多元探索。在MuJoCo的5个机器人运动连续控制任务中的实验结果表明,提出的算法性能优于以前的进化强化学习算法,且具有更快的收敛速度。; 关键词深度强化学习进化算法进化强化学习随机对称搜索; Keywords deep reinforcement learning evolutionary algorithm evolutionary reinforcement learning stochastic symmetric search; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名结合元学习和安全区域探索的进化强化学习方法: 3; 作者李晓益胡滨秦进彭安浪; 机构贵州大学计算机科学与技术学院公共大数据国家重点实验室贵州大学计算机科学与技术学院贵州兆信数码技术有限公司; 出处《计算机工程与应用》北大核心 2025年第1期361-367,共7页; 基金贵州省科技计划项目([2020]1Y275) 贵州省科技计划项目(黔科合支撑[2022]一般267) 国家自然科学基金(62066006)。; 文摘最近提出的进化强化学习(evolutionary reinforcement learning,ERL)框架表明了利用进化算法提高强化学习的探索能力对性能提升的好处。然而,现有的基于ERL的方法并没有完全解决进化算法中突变的可伸缩性问题且由于进化算法本身的限制使得ERL解决问题的速度较为缓慢。为了使算法每一步的探索都被限制在安全区域中且能在较短的时间内收敛,运用元学习的思想,预训练一个初始的种群,这个种群只需要经过几次进化就能得到任务中不错的效果。将预训练过后的种群用于处理任务,在此过程中,利用敏感度调整种群突变的范围,限制种群在安全区域内进行突变,确保种群的突变不会带来无法预料的后果。该方法在来自OpenAI gym中的五种机器人运动中进行了评估。最终在所有测试的环境中,该方法在以ERL、CEM-RL以及两种最先进的RL算法、PPO和TD3为基线的比较中,取得了具有竞争性的效果。; 关键词进化强化学习元学习预训练安全区域突变算子; Keywords evolutionary reinforcement learning meta-learning pre-training safe region mutation operator; 分类号 TP181 [自动化与计算机技术—控制理论与控制工程]; 在线阅读下载PDF 职称材料

题名基于内在奖励策略引导的自适应近端蒸馏进化强化学习算法的变速箱装配线AGV路径规划: 4; 作者王宸孙楠邹春龙黄玉春王生怀; 机构湖北汽车工业学院机械工程学院中国工程科技十堰产业技术研究院上海大学上海市智能制造与机器人重点实验室; 出处《计算机集成制造系统》北大核心 2025年第6期2059-2070,共12页; 基金国家自然科学基金资助项目(51475150) 湖北省重点研发计划资助项目(2021BAA056) +1 种基金湖北汽车工业学院博士基金资助项目(BK201905)。; 文摘针对自动引导运输车(AGV)面对混合U型障碍与动态障碍时路径规划效率低的问题,提出一种基于内在奖励策略引导的自适应近端蒸馏进化强化学习算法。在适应度函数中引入随机网络蒸馏模型作为内在奖励,以提升算法评估精英策略的多样性;设计自适应内在奖励权重因子α平衡算法探索与利用的能力,帮助AGV在不确定性强的动态障碍环境中选择最优策略。将变异算子的协方差参数通过协方差矩阵自适应进化策略进行优化,从而降低参数的敏感程度。通过与多种算法分别在3种不同的环境中对比表明,改进后的算法在U型分装线、动态障碍、变速箱装配线环境中的路径分别减少12.65%,13.44%,12.87%,相比原始算法的收敛速度更快,且在复杂环境中具有较强的鲁棒性。; 关键词 U型障碍进化强化学习内在奖励自适应奖励权重路径规划; Keywords U-shaped obstacles evolutionary reinforcement learning intrinsic reward adaptive reward weights path planning; 分类号 TP23 [自动化与计算机技术—检测技术与自动化装置] TP18 [自动化与计算机技术—控制理论与控制工程]; 在线阅读下载PDF 职称材料

题名基于自适应噪声的最大熵进化强化学习方法被引量：6: 5; 作者王君逸王志李华雄陈春林; 机构南京大学控制科学与智能工程系; 出处《自动化学报》 EI CAS CSCD 北大核心 2023年第1期54-66,共13页; 基金国家自然科学基金(62006111,62073160,62176116) 江苏省自然科学基金(BK20200330)资助。; 文摘近年来,进化策略由于其无梯度优化和高并行化效率等优点,在深度强化学习领域得到了广泛的应用.然而,传统基于进化策略的深度强化学习方法存在着学习速度慢、容易收敛到局部最优和鲁棒性较弱等问题.为此,提出了一种基于自适应噪声的最大熵进化强化学习方法.首先,引入了一种进化策略的改进办法,在“优胜”的基础上加强了“劣汰”,从而提高进化强化学习的收敛速度;其次,在目标函数中引入了策略最大熵正则项,来保证策略的随机性进而鼓励智能体对新策略的探索;最后,提出了自适应噪声控制的方式,根据当前进化情形智能化调整进化策略的搜索范围,进而减少对先验知识的依赖并提升算法的鲁棒性.实验结果表明,该方法较之传统方法在学习速度、最优性收敛和鲁棒性上有比较明显的提升.; 关键词深度强化学习进化策略进化强化学习最大熵自适应噪声; Keywords Deep reinforcement learning evolution strategies evolutionary reinforcement learning maximum entropy adaptive noise; 分类号 TP18 [自动化与计算机技术—控制理论与控制工程]; 在线阅读下载PDF 职称材料

题名基于EA-RL算法的分布式能源集群调度方法: 6; 作者程小华王泽夫曾君曾婧瑶谭豪杰; 机构华南理工大学电力学院; 出处《华南理工大学学报(自然科学版)》北大核心 2025年第1期1-9,共9页; 基金国家自然科学基金项目(62173148,52377186) 广东省自然科学基金项目(2022A1515010150,2023A1515010184) 广东省基础与应用基础研究基金项目(2022A1515240026)。; 文摘目前对于分布式能源集群调度的研究大多局限于单一场景,同时也缺少高效、准确的算法。该文针对以上问题提出了一种基于进化算法经验指导的深度强化学习(EA-RL)的分布式能源集群多场景调度方法。分别对分布式能源集群中的电源、储能、负荷进行个体建模,并基于个体调度模型建立了包含辅助调峰调频的多场景分布式能源集群优化调度模型;基于进化强化学习算法框架,提出了一种EA-RL算法,该算法融合了遗传算法(GA)与深度确定性策略梯度(DDPG)算法,以经验序列作为遗传算法个体进行交叉、变异、选择,筛选出优质经验加入DDPG算法经验池对智能体进行指导训练以提高算法的搜索效率和收敛性;根据多场景调度模型构建分布式能源集群多场景调度问题的状态空间和动作空间,再以最小化调度成本、最小化辅助服务调度指令偏差、最小化联络线越限功率以及最小化源荷功率差构建奖励函数,完成强化学习模型的建立;为验证所提算法模型的有效性,基于多场景的仿真算例对调度智能体进行离线训练,形成能够适应电网多场景的调度智能体,通过在线决策的方式进行验证,根据决策结果评估其调度决策能力,并通过与DDPG算法的对比验证算法的有效性,最后对训练完成的智能体进行了连续60d的加入不同程度扰动的在线决策测试,验证智能体的后效性和鲁棒性。; 关键词分布式能源集群深度强化学习进化强化学习算法多场景一体化调度; Keywords distributed energy cluster deep reinforcement learning evolutionary reinforcement learning algorithm integrated scheduling for multiple scenarios; 分类号 TM734 [电气工程—电力系统及自动化]; 在线阅读下载PDF 职称材料

题名基于变体天牛须改进QL的AGV路径规划算法研究: 7; 作者黄玉春宋俊王宸孙楠王勤钟毓宁; 机构湖北汽车工业学院机械工程学院中国工程科技十堰产业技术研究院湖北万润新能源科技股份有限公司湖北开放大学; 出处《制造技术与机床》北大核心 2024年第10期89-97,共9页; 基金国家自然科学基金项目(51475150) 湖北省高等学校中青年科技创新团队计划项目(T20200018) +3 种基金湖北省社科基金项目(21Q174) 湖北省教育厅科学技术研究计划指导性项目(B2019080)。; 文摘针对Q-learning(QL)在解决AGV(automated guided vehicle)路径规划时前期收敛速度慢、后期易陷入局部最优等问题,提出了一种变体天牛须改进QL的进化强化学习算法(BAS-QL)。BAS-QL主要特点有三方面,首先使用变体天牛须算法对Q表格进行初始化,加快AGV路径规划的前期寻优速度;然后使用渐变衰减Epsilon-Greedy搜索策略,利用衰减Epsilon值来避免算法在后期陷入局部最优避免出现结果难收敛的现象。最后求解AGV行走的最优路径,并通过实验对BAS-QL算法进行验证。在n=15和n=20栅格图对比实验中,BAS-QL表现出平均耗时短、平均路程短和平均迭代次数少的特点。说明该方法在智能规划路径的同时还可以有效提升AGV的路径规划效率。; 关键词进化强化学习天牛须搜索 AGV路径规划; Keywords evolutionary reinforcement learning beetle antennae search AGV path planning; 分类号 TP301 [自动化与计算机技术—计算机系统结构]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	基于精英指导和随机搜索的进化强化学习	邸剑万雪姜丽梅	《系统仿真学报》北大核心	2025	0	在线阅读下载PDF 职称材料
2	基于随机对称搜索的进化强化学习算法	邸剑万雪姜丽梅	《计算机工程与科学》北大核心	2025	0	在线阅读下载PDF 职称材料
3	结合元学习和安全区域探索的进化强化学习方法	李晓益胡滨秦进彭安浪	《计算机工程与应用》北大核心	2025	0	在线阅读下载PDF 职称材料
4	基于内在奖励策略引导的自适应近端蒸馏进化强化学习算法的变速箱装配线AGV路径规划	王宸孙楠邹春龙黄玉春王生怀	《计算机集成制造系统》北大核心	2025	0	在线阅读下载PDF 职称材料
5	基于自适应噪声的最大熵进化强化学习方法	王君逸王志李华雄陈春林	《自动化学报》 EI CAS CSCD 北大核心	2023	6	在线阅读下载PDF 职称材料
6	基于EA-RL算法的分布式能源集群调度方法	程小华王泽夫曾君曾婧瑶谭豪杰	《华南理工大学学报(自然科学版)》北大核心	2025	0	在线阅读下载PDF 职称材料
7	基于变体天牛须改进QL的AGV路径规划算法研究	黄玉春宋俊王宸孙楠王勤钟毓宁	《制造技术与机床》北大核心	2024	0	在线阅读下载PDF 职称材料