期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
基于精英指导和随机搜索的进化强化学习
1
作者 邸剑 万雪 姜丽梅 《系统仿真学报》 北大核心 2025年第11期2877-2887,共11页
针对进化强化学习因样本效率低、耦合方式单一及收敛性差而导致的性能与扩展性受限问题,提出一种基于精英梯度指导和双重随机搜索的改进算法。通过在强化策略训练时引入携带进化信息的精英策略梯度指导,纠正了强化策略梯度更新的方向;... 针对进化强化学习因样本效率低、耦合方式单一及收敛性差而导致的性能与扩展性受限问题,提出一种基于精英梯度指导和双重随机搜索的改进算法。通过在强化策略训练时引入携带进化信息的精英策略梯度指导,纠正了强化策略梯度更新的方向;采用双重随机搜索替换原有的进化组件,降低算法复杂性的同时使得策略搜索在参数空间进行有意义和可控的搜索;引入完全替换信息交易有效地平衡了强化策略和进化策略的学习和探索。实验结果表明:该方法相比于经典的进化强化学习方法在探索力、鲁棒性和收敛性方面具有一定的提升。 展开更多
关键词 进化强化学习 深度强化学习 进化算法 连续控制 精英梯度指导
在线阅读 下载PDF
基于随机对称搜索的进化强化学习算法
2
作者 邸剑 万雪 姜丽梅 《计算机工程与科学》 北大核心 2025年第5期912-920,共9页
进化算法的引入极大地提高了强化学习算法的性能。然而,现有的基于进化强化学习ERL的算法还存在易陷入欺骗性奖励、易收敛到局部最优和稳定性差的问题。为了解决这些问题,提出了一种随机对称搜索策略,直接作用于策略网络参数,在策略网... 进化算法的引入极大地提高了强化学习算法的性能。然而,现有的基于进化强化学习ERL的算法还存在易陷入欺骗性奖励、易收敛到局部最优和稳定性差的问题。为了解决这些问题,提出了一种随机对称搜索策略,直接作用于策略网络参数,在策略网络参数中心的基础上由最优策略网络参数指导全局策略网络参数优化更新,同时辅以梯度优化,引导智能体进行多元探索。在MuJoCo的5个机器人运动连续控制任务中的实验结果表明,提出的算法性能优于以前的进化强化学习算法,且具有更快的收敛速度。 展开更多
关键词 深度强化学习 进化算法 进化强化学习 随机对称搜索
在线阅读 下载PDF
结合元学习和安全区域探索的进化强化学习方法
3
作者 李晓益 胡滨 +1 位作者 秦进 彭安浪 《计算机工程与应用》 北大核心 2025年第1期361-367,共7页
最近提出的进化强化学习(evolutionary reinforcement learning,ERL)框架表明了利用进化算法提高强化学习的探索能力对性能提升的好处。然而,现有的基于ERL的方法并没有完全解决进化算法中突变的可伸缩性问题且由于进化算法本身的限制使... 最近提出的进化强化学习(evolutionary reinforcement learning,ERL)框架表明了利用进化算法提高强化学习的探索能力对性能提升的好处。然而,现有的基于ERL的方法并没有完全解决进化算法中突变的可伸缩性问题且由于进化算法本身的限制使得ERL解决问题的速度较为缓慢。为了使算法每一步的探索都被限制在安全区域中且能在较短的时间内收敛,运用元学习的思想,预训练一个初始的种群,这个种群只需要经过几次进化就能得到任务中不错的效果。将预训练过后的种群用于处理任务,在此过程中,利用敏感度调整种群突变的范围,限制种群在安全区域内进行突变,确保种群的突变不会带来无法预料的后果。该方法在来自OpenAI gym中的五种机器人运动中进行了评估。最终在所有测试的环境中,该方法在以ERL、CEM-RL以及两种最先进的RL算法、PPO和TD3为基线的比较中,取得了具有竞争性的效果。 展开更多
关键词 进化强化学习 学习 预训练 安全区域 突变算子
在线阅读 下载PDF
基于内在奖励策略引导的自适应近端蒸馏进化强化学习算法的变速箱装配线AGV路径规划
4
作者 王宸 孙楠 +2 位作者 邹春龙 黄玉春 王生怀 《计算机集成制造系统》 北大核心 2025年第6期2059-2070,共12页
针对自动引导运输车(AGV)面对混合U型障碍与动态障碍时路径规划效率低的问题,提出一种基于内在奖励策略引导的自适应近端蒸馏进化强化学习算法。在适应度函数中引入随机网络蒸馏模型作为内在奖励,以提升算法评估精英策略的多样性;设计... 针对自动引导运输车(AGV)面对混合U型障碍与动态障碍时路径规划效率低的问题,提出一种基于内在奖励策略引导的自适应近端蒸馏进化强化学习算法。在适应度函数中引入随机网络蒸馏模型作为内在奖励,以提升算法评估精英策略的多样性;设计自适应内在奖励权重因子α平衡算法探索与利用的能力,帮助AGV在不确定性强的动态障碍环境中选择最优策略。将变异算子的协方差参数通过协方差矩阵自适应进化策略进行优化,从而降低参数的敏感程度。通过与多种算法分别在3种不同的环境中对比表明,改进后的算法在U型分装线、动态障碍、变速箱装配线环境中的路径分别减少12.65%,13.44%,12.87%,相比原始算法的收敛速度更快,且在复杂环境中具有较强的鲁棒性。 展开更多
关键词 U型障碍 进化强化学习 内在奖励 自适应奖励权重 路径规划
在线阅读 下载PDF
基于自适应噪声的最大熵进化强化学习方法 被引量:6
5
作者 王君逸 王志 +1 位作者 李华雄 陈春林 《自动化学报》 EI CAS CSCD 北大核心 2023年第1期54-66,共13页
近年来,进化策略由于其无梯度优化和高并行化效率等优点,在深度强化学习领域得到了广泛的应用.然而,传统基于进化策略的深度强化学习方法存在着学习速度慢、容易收敛到局部最优和鲁棒性较弱等问题.为此,提出了一种基于自适应噪声的最大... 近年来,进化策略由于其无梯度优化和高并行化效率等优点,在深度强化学习领域得到了广泛的应用.然而,传统基于进化策略的深度强化学习方法存在着学习速度慢、容易收敛到局部最优和鲁棒性较弱等问题.为此,提出了一种基于自适应噪声的最大熵进化强化学习方法.首先,引入了一种进化策略的改进办法,在“优胜”的基础上加强了“劣汰”,从而提高进化强化学习的收敛速度;其次,在目标函数中引入了策略最大熵正则项,来保证策略的随机性进而鼓励智能体对新策略的探索;最后,提出了自适应噪声控制的方式,根据当前进化情形智能化调整进化策略的搜索范围,进而减少对先验知识的依赖并提升算法的鲁棒性.实验结果表明,该方法较之传统方法在学习速度、最优性收敛和鲁棒性上有比较明显的提升. 展开更多
关键词 深度强化学习 进化策略 进化强化学习 最大熵 自适应噪声
在线阅读 下载PDF
基于EA-RL算法的分布式能源集群调度方法
6
作者 程小华 王泽夫 +2 位作者 曾君 曾婧瑶 谭豪杰 《华南理工大学学报(自然科学版)》 北大核心 2025年第1期1-9,共9页
目前对于分布式能源集群调度的研究大多局限于单一场景,同时也缺少高效、准确的算法。该文针对以上问题提出了一种基于进化算法经验指导的深度强化学习(EA-RL)的分布式能源集群多场景调度方法。分别对分布式能源集群中的电源、储能、负... 目前对于分布式能源集群调度的研究大多局限于单一场景,同时也缺少高效、准确的算法。该文针对以上问题提出了一种基于进化算法经验指导的深度强化学习(EA-RL)的分布式能源集群多场景调度方法。分别对分布式能源集群中的电源、储能、负荷进行个体建模,并基于个体调度模型建立了包含辅助调峰调频的多场景分布式能源集群优化调度模型;基于进化强化学习算法框架,提出了一种EA-RL算法,该算法融合了遗传算法(GA)与深度确定性策略梯度(DDPG)算法,以经验序列作为遗传算法个体进行交叉、变异、选择,筛选出优质经验加入DDPG算法经验池对智能体进行指导训练以提高算法的搜索效率和收敛性;根据多场景调度模型构建分布式能源集群多场景调度问题的状态空间和动作空间,再以最小化调度成本、最小化辅助服务调度指令偏差、最小化联络线越限功率以及最小化源荷功率差构建奖励函数,完成强化学习模型的建立;为验证所提算法模型的有效性,基于多场景的仿真算例对调度智能体进行离线训练,形成能够适应电网多场景的调度智能体,通过在线决策的方式进行验证,根据决策结果评估其调度决策能力,并通过与DDPG算法的对比验证算法的有效性,最后对训练完成的智能体进行了连续60d的加入不同程度扰动的在线决策测试,验证智能体的后效性和鲁棒性。 展开更多
关键词 分布式能源集群 深度强化学习 进化强化学习算法 多场景一体化调度
在线阅读 下载PDF
基于变体天牛须改进QL的AGV路径规划算法研究
7
作者 黄玉春 宋俊 +3 位作者 王宸 孙楠 王勤 钟毓宁 《制造技术与机床》 北大核心 2024年第10期89-97,共9页
针对Q-learning(QL)在解决AGV(automated guided vehicle)路径规划时前期收敛速度慢、后期易陷入局部最优等问题,提出了一种变体天牛须改进QL的进化强化学习算法(BAS-QL)。BAS-QL主要特点有三方面,首先使用变体天牛须算法对Q表格进行初... 针对Q-learning(QL)在解决AGV(automated guided vehicle)路径规划时前期收敛速度慢、后期易陷入局部最优等问题,提出了一种变体天牛须改进QL的进化强化学习算法(BAS-QL)。BAS-QL主要特点有三方面,首先使用变体天牛须算法对Q表格进行初始化,加快AGV路径规划的前期寻优速度;然后使用渐变衰减Epsilon-Greedy搜索策略,利用衰减Epsilon值来避免算法在后期陷入局部最优避免出现结果难收敛的现象。最后求解AGV行走的最优路径,并通过实验对BAS-QL算法进行验证。在n=15和n=20栅格图对比实验中,BAS-QL表现出平均耗时短、平均路程短和平均迭代次数少的特点。说明该方法在智能规划路径的同时还可以有效提升AGV的路径规划效率。 展开更多
关键词 进化强化学习 天牛须搜索 AGV路径规划
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部