期刊文献+
共找到599篇文章
< 1 2 30 >
每页显示 20 50 100
基于深度强化学习的游戏智能引导算法 被引量:2
1
作者 白天 吕璐瑶 +1 位作者 李储 何加亮 《吉林大学学报(理学版)》 北大核心 2025年第1期91-98,共8页
针对传统游戏智能体算法存在模型输入维度大及训练时间长的问题,提出一种结合状态信息转换与奖励函数塑形技术的新型深度强化学习游戏智能引导算法.首先,利用Unity引擎提供的接口直接读取游戏后台信息,以有效压缩状态空间的维度,减少输... 针对传统游戏智能体算法存在模型输入维度大及训练时间长的问题,提出一种结合状态信息转换与奖励函数塑形技术的新型深度强化学习游戏智能引导算法.首先,利用Unity引擎提供的接口直接读取游戏后台信息,以有效压缩状态空间的维度,减少输入数据量;其次,通过精细化设计奖励机制,加速模型的收敛过程;最后,从主观定性和客观定量两方面对该算法模型与现有方法进行对比实验,实验结果表明,该算法不仅显著提高了模型的训练效率,还大幅度提高了智能体的性能. 展开更多
关键词 深度强化学习 游戏智能体 奖励函数塑形 近端策略优化算法
在线阅读 下载PDF
一种进化梯度引导的强化学习算法
2
作者 许斌 练元洪 +2 位作者 卞鸿根 刘丹 亓晋 《南京邮电大学学报(自然科学版)》 北大核心 2025年第1期99-105,共7页
进化算法(Evolutionary Algorithm,EA)和深度强化学习(Deep Reinforcement Learning,DRL)的组合被认为能够结合二者的优点,即EA的强大随机搜索能力和DRL的样本效率,实现更好的策略学习。然而,现有的组合方法存在EA引入所导致的策略性能... 进化算法(Evolutionary Algorithm,EA)和深度强化学习(Deep Reinforcement Learning,DRL)的组合被认为能够结合二者的优点,即EA的强大随机搜索能力和DRL的样本效率,实现更好的策略学习。然而,现有的组合方法存在EA引入所导致的策略性能不可预测性问题。提出自适应历史梯度引导机制,其利用历史梯度信息,找到平衡探索和利用的线索,从而获得较为稳定的高质量策略,进一步将此机制融合经典的进化强化学习算法,提出一种进化梯度引导的强化学习算法(Evolutionary Gradient Guided Reinforcement Learning,EGG⁃RL)。在连续控制任务方面的实验表明,EGG⁃RL的性能表现优于其他方法。 展开更多
关键词 CEM⁃RL 深度强化学习 进化算法 历史梯度
在线阅读 下载PDF
基于随机对称搜索的进化强化学习算法
3
作者 邸剑 万雪 姜丽梅 《计算机工程与科学》 北大核心 2025年第5期912-920,共9页
进化算法的引入极大地提高了强化学习算法的性能。然而,现有的基于进化强化学习ERL的算法还存在易陷入欺骗性奖励、易收敛到局部最优和稳定性差的问题。为了解决这些问题,提出了一种随机对称搜索策略,直接作用于策略网络参数,在策略网... 进化算法的引入极大地提高了强化学习算法的性能。然而,现有的基于进化强化学习ERL的算法还存在易陷入欺骗性奖励、易收敛到局部最优和稳定性差的问题。为了解决这些问题,提出了一种随机对称搜索策略,直接作用于策略网络参数,在策略网络参数中心的基础上由最优策略网络参数指导全局策略网络参数优化更新,同时辅以梯度优化,引导智能体进行多元探索。在MuJoCo的5个机器人运动连续控制任务中的实验结果表明,提出的算法性能优于以前的进化强化学习算法,且具有更快的收敛速度。 展开更多
关键词 深度强化学习 进化算法 进化强化学习 随机对称搜索
在线阅读 下载PDF
基于深度强化学习NoisyNet-A3C算法的自动化渗透测试方法
4
作者 董卫宇 刘鹏坤 +2 位作者 刘春玲 唐永鹤 马钰普 《郑州大学学报(工学版)》 北大核心 2025年第5期60-68,共9页
在自动化渗透测试领域,现有攻击路径决策算法大多基于部分可观测马尔可夫决策过程(POMDP),存在算法复杂度过高、收敛速度慢、易陷入局部最优解等问题。针对这些问题,提出了一种基于马尔可夫决策过程(MDP)的强化学习算法NoisyNet-A3C,并... 在自动化渗透测试领域,现有攻击路径决策算法大多基于部分可观测马尔可夫决策过程(POMDP),存在算法复杂度过高、收敛速度慢、易陷入局部最优解等问题。针对这些问题,提出了一种基于马尔可夫决策过程(MDP)的强化学习算法NoisyNet-A3C,并用于自动化渗透测试领域。该算法通过多线程训练actor-critic,每个线程的运算结果反馈到主神经网络中,同时从主神经网络中获取最新的参数更新,充分利用计算机性能,减少数据相关性,提高训练效率。另外,训练网络添加噪声参数与权重网络训练更新参数,增加了行为策略的随机性,利于更快探索有效路径,减少了数据扰动的影响,从而增强了算法的鲁棒性。实验结果表明:与A3C、Q-learning、DQN和NDSPI-DQN算法相比,NoisyNet-A3C算法收敛速度提高了30%以上,验证了所提算法的收敛速度更快。 展开更多
关键词 渗透测试 攻击路径决策 A3C算法 深度强化学习 METASPLOIT
在线阅读 下载PDF
基于深度强化学习的离散状态转移算法求解柔性作业车间调度问题 被引量:1
5
作者 朱家政 王聪 +2 位作者 李新凯 董颖超 张宏立 《北京航空航天大学学报》 北大核心 2025年第4期1385-1394,共10页
柔性作业车间调度问题(FJSP)作为一种在实际生活中应用广泛的调度问题,对其智能算法具有重要价值。为了解决FJSP,以最小化最大完工时间为优化目标,提出了一种基于近端策略优化的离散状态转移算法(DSTA-PPO)。DSTA-PPO具有3个特点:考虑到... 柔性作业车间调度问题(FJSP)作为一种在实际生活中应用广泛的调度问题,对其智能算法具有重要价值。为了解决FJSP,以最小化最大完工时间为优化目标,提出了一种基于近端策略优化的离散状态转移算法(DSTA-PPO)。DSTA-PPO具有3个特点:考虑到FJSP需要同时对工序排序、机器分配同时进行调度安排,结合工序编码和机器编码,设计了一种能够充分表达当前调度问题的状态特征;针对工序排序、机器分配设计了多种基于关键路径的搜索操作;通过强化学习的训练,能够有效地引导智能体选择正确的搜索操作优化当前的调度序列。通过基于不同数据集的仿真实验,验证了算法各环节的有效性,同时在相同算例上以最小化最大完工时间为对比指标与现有算法进行了比较,对比结果表明了所提算法能够在多数算例上以更短的完工时间对算例完成求解,有效地求解了柔性作业车间调度问题。 展开更多
关键词 深度学习 强化学习 离散状态转移算法 近端策略优化算法 柔性作业车间调度
在线阅读 下载PDF
基于强化学习与遗传算法的机器人并行拆解序列规划方法 被引量:2
6
作者 汪开普 马晓艺 +2 位作者 卢超 殷旅江 李新宇 《国防科技大学学报》 北大核心 2025年第2期24-34,共11页
在拆解序列规划问题中,为了提高拆解效率、降低拆解能耗,引入了机器人并行拆解模式,构建了机器人并行拆解序列规划模型,并设计了基于强化学习的遗传算法。为了验证模型的正确性,构造了混合整数线性规划模型。算法构造了基于目标导向的... 在拆解序列规划问题中,为了提高拆解效率、降低拆解能耗,引入了机器人并行拆解模式,构建了机器人并行拆解序列规划模型,并设计了基于强化学习的遗传算法。为了验证模型的正确性,构造了混合整数线性规划模型。算法构造了基于目标导向的编解码策略,以提高初始解的质量;采用Q学习来选择算法迭代过程中的最佳交叉策略和变异策略,以增强算法的自适应能力。在一个34项任务的发动机拆解案例中,通过与四种经典多目标算法对比,验证了所提算法的优越性;分析所得拆解方案,结果表明机器人并行拆解模式可以有效缩短完工时间,并降低拆解能耗。 展开更多
关键词 拆解序列规划 机器人并行拆解 混合整数线性规划模型 遗传算法 强化学习
在线阅读 下载PDF
动态环境下共融机器人深度强化学习导航算法 被引量:3
7
作者 顾金浩 况立群 +2 位作者 韩慧妍 曹亚明 焦世超 《计算机工程与应用》 北大核心 2025年第4期90-98,共9页
在过去的几十年里,移动服务机器人的导航算法得到了广泛研究,但智能体仍然缺乏人类在拥挤环境中展现出的复杂性和合作性。随着人机共融的应用不断拓展,机器人和人类共享工作空间的协作将愈发重要,因此下一代移动服务机器人需要符合社交... 在过去的几十年里,移动服务机器人的导航算法得到了广泛研究,但智能体仍然缺乏人类在拥挤环境中展现出的复杂性和合作性。随着人机共融的应用不断拓展,机器人和人类共享工作空间的协作将愈发重要,因此下一代移动服务机器人需要符合社交要求,才能被人类接受。为了提升多智能体在动态场景中的自主导航能力,针对多智能体导航中社会适应性低和寻找最优值函数问题,提出了一种动态环境下共融机器人深度强化学习避障算法。建立了更贴近人类行为的运动模型并将其添加到深度强化学习框架中,用于提高共融机器人的合作性;为了在行人物理安全的基础上提升其感知安全,重新制定了奖励函数;利用非线性深度神经网络代替传统的值函数,解决寻找最优值函数问题。仿真实验显示,相较于最新的深度强化学习导航方法,该方法在不增加导航时间的情况下实现了100%的导航成功率,且没有发生任何碰撞。结果表明,该方法使共融机器人最大限度地满足人类的社交原则,同时朝着目标前进,有效提高了行人的感知安全。 展开更多
关键词 服务机器人 避障算法 深度强化学习 最优值函数 奖励函数
在线阅读 下载PDF
基于改进深度强化学习算法的自动电压调节器控制 被引量:1
8
作者 阮柏松 刘利 +3 位作者 顾阳 刘琦 王涵 赵晶晶 《电力系统及其自动化学报》 北大核心 2025年第6期150-158,共9页
为适应大容量同步发电机组并网点母线电压波动增加对自动电压调节器(automatic voltage regulator,AVR)系统响应能力的更高要求,提出一种基于含探索网络的双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient wi... 为适应大容量同步发电机组并网点母线电压波动增加对自动电压调节器(automatic voltage regulator,AVR)系统响应能力的更高要求,提出一种基于含探索网络的双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient with Explorer network,TD3EN)算法的同步发电机励磁电压控制方法。首先,通过传递函数对同步发电机励磁调压子系统进行建模;然后建立TD3EN算法探索网络、动作网络和评价网络,并设置相应参数;接着利用TD3EN算法训练智能体,通过探索网络探索动作空间,并根据评价网络更新动作网络参数,使其为AVR提供控制信号;将训练完成的智能体接入AVR系统,实现对发电机机端电压的控制。仿真结果表明,所提方法提高了AVR系统响应调节指令和应对电压暂降的能力。 展开更多
关键词 双延迟深度确定性策略梯度算法 探索网络 深度强化学习 同步发电机 自动电压调节器
在线阅读 下载PDF
基于强化学习的无人机网络自适应QoS路由算法 被引量:5
9
作者 谭周正 范琅 +1 位作者 李宇峰 章小宁 《计算机应用研究》 北大核心 2025年第4期1177-1184,共8页
由于无人机网络的动态特性,要保证其具有可靠的通信保障仍存在一定的挑战,尤其是在军事领域,对无人机网络的QoS保障能力要求更高。针对上述需求,提出了一种基于Q学习的自适应QoS路由算法。在该算法中,每个节点通过HELLO消息和数据包相... 由于无人机网络的动态特性,要保证其具有可靠的通信保障仍存在一定的挑战,尤其是在军事领域,对无人机网络的QoS保障能力要求更高。针对上述需求,提出了一种基于Q学习的自适应QoS路由算法。在该算法中,每个节点通过HELLO消息和数据包相结合的方式来进行邻居信息感知,通过接收邻居节点反馈的ACK来获取链路时延和丢包率,然后根据链路时延和丢包率来更新维护Q表。考虑节点移动特性,算法还引入了节点的位置信息。在路由过程中,节点综合考虑Q表和邻居节点的位置信息来进行最优下一跳选择。通过仿真验证,对比参考的路由算法,提出的路由算法能够在较低的路由开销下提供更低的传输时延和更高的传输成功率。 展开更多
关键词 无人机网络 强化学习 路由算法
在线阅读 下载PDF
基于改进深度强化学习算法的农业机器人路径规划
10
作者 赵威 张万枝 +4 位作者 侯加林 侯瑞 李玉华 赵乐俊 程进 《浙江大学学报(工学版)》 北大核心 2025年第7期1492-1503,共12页
农业机器人采用深度强化学习算法进行路径规划时存在难以找到目标点、稀疏奖励、收敛缓慢等问题,为此提出基于多目标点导航融合改进深度Q网络算法(MPN-DQN)的路径规划方法.利用激光同步定位与建图(SLAM)扫描全局环境以构建先验地图,划... 农业机器人采用深度强化学习算法进行路径规划时存在难以找到目标点、稀疏奖励、收敛缓慢等问题,为此提出基于多目标点导航融合改进深度Q网络算法(MPN-DQN)的路径规划方法.利用激光同步定位与建图(SLAM)扫描全局环境以构建先验地图,划分行走行和作物行区域;对地图边界进行膨胀拟合处理,形成前向弓字形作业走廊.利用中间目标点分割全局环境,将复杂环境划分为多阶段短程导航环境以简化目标点搜索过程.从动作空间、探索策略和奖励函数3个方面改进深度Q网络算法以改善奖励稀疏问题,加快算法收敛速度,提高导航成功率.实验结果表明,搭载MPN-DQN的农业机器人自主行驶的总碰撞次数为1,平均导航时间为104.27 s,平均导航路程为16.58 m,平均导航成功率为95%. 展开更多
关键词 深度强化学习 农业机器人 中间目标点 多目标点导航融合改进深度Q网络算法(MPN-DQN) 路径规划
在线阅读 下载PDF
基于深度强化学习的变步长LMS算法
11
作者 徐君阳 张红梅 张坤 《仪器仪表学报》 北大核心 2025年第2期70-80,共11页
针对定步长LMS算法在收敛速度和稳态误差之间难以取得平衡的问题以及传统变步长算法对初始参数选择依赖程度高、工作量大且存在主观性的缺陷,提出了一种基于深度强化学习的变步长LMS算法。该算法对初始参数的依赖性小,规避了繁琐的调参... 针对定步长LMS算法在收敛速度和稳态误差之间难以取得平衡的问题以及传统变步长算法对初始参数选择依赖程度高、工作量大且存在主观性的缺陷,提出了一种基于深度强化学习的变步长LMS算法。该算法对初始参数的依赖性小,规避了繁琐的调参流程。首先,构建了一个融合深度强化学习和自适应滤波的算法模型,该模型利用深度强化学习智能体控制步长因子的变化,代替了传统变步长算法中用于步长调整的非线性函数,从而规避了繁琐的实验调参流程,降低了算法使用的复杂性。其次,提出了基于误差的状态奖励和基于步长的动作奖励函数,引入动态奖励与负奖励机制,有效提升算法的收敛速度。此外,设计了基于欠完备编码器的网络结构,提高了强化学习策略的推理能力。通过实验验证,相较于其他较新的变步长算法,所提出的算法具有更快的收敛速度和更小的稳态误差,在不同初始参数下均能快速调整至合理的步长值,减少了实验调参的工作量。将训练完成的网络应用到系统辨识、信号去噪以及截流区龙口水域水位信号的滤波等实际领域中,均取得了良好的性能表现,证明了算法具有一定的泛化能力,并进一步证实了其有效性。 展开更多
关键词 变步长LMS算法 深度强化学习 自适应滤波 奖励函数
在线阅读 下载PDF
基于强化学习的正弦优化算法求解能耗分布式流水车间节能调度问题
12
作者 郎峻 殷晓明 顾幸生 《华东理工大学学报(自然科学版)》 北大核心 2025年第5期623-632,共10页
针对分布式流水车间节能调度中最大完工时间(makespan)与总能耗(TEC)的多目标优化难题,本文提出一种基于强化学习的正弦优化算法(RLSOA)。算法通过双重Q-learning策略协同优化加工序列与速度调整:底层Q-learning优先加速关键路径任务以... 针对分布式流水车间节能调度中最大完工时间(makespan)与总能耗(TEC)的多目标优化难题,本文提出一种基于强化学习的正弦优化算法(RLSOA)。算法通过双重Q-learning策略协同优化加工序列与速度调整:底层Q-learning优先加速关键路径任务以缩短makespan,顶层Q-learning降低非关键任务速度以减少TEC。结合自适应参数与4种速度调整算子,设计基于精英解导向的局部搜索策略,平衡全局探索与局部开发。基于480组不同规模算例的实验表明,相较于KCA、INSGA等对比算法,RLSOA在覆盖率(C-metric)和反世代距离(IGD)指标上平均提升23.6%和降低41.8%。消融实验验证双重Q-learning与局部搜索分别贡献65.3%和28.7%的解质量提升。统计检验(p<0.05)证实本文算法优越性,为分布式制造系统提供了高效的节能调度工具。 展开更多
关键词 节能 分布式流水车间调度 强化学习 元启发式算法 多目标优化
在线阅读 下载PDF
基于强化学习的Kubernetes云边协同计算调度算法
13
作者 汤佳伟 郭铁铮 闻英友 《浙江大学学报(工学版)》 北大核心 2025年第11期2400-2408,共9页
针对云边协同计算在网络资源和计算资源不平衡、任务类型和到达时间不确定的场景中存在资源利用不充分的问题,提出基于强化学习的云边协同计算资源调度算法KNCS.通过综合考虑网络资源和计算资源的状态,该算法实现了更短的传输时间、处... 针对云边协同计算在网络资源和计算资源不平衡、任务类型和到达时间不确定的场景中存在资源利用不充分的问题,提出基于强化学习的云边协同计算资源调度算法KNCS.通过综合考虑网络资源和计算资源的状态,该算法实现了更短的传输时间、处理时间和周转时间.设计统一的信息传输平台,聚合来自计算节点和各个任务的信息,支持任务依赖关系的定义,根据运行任务的类型动态调整后续任务,提供更真实的任务调度场景.实验结果表明,在云边协同计算场景下,KNCS算法的性能优于默认的Kubernetes调度算法. 展开更多
关键词 云边协同计算 物联网 任务调度 强化学习算法 分布式计算
在线阅读 下载PDF
基于强化学习动态特征驱动的可靠路由算法研究
14
作者 李姝 谢睿 冯永新 《小型微型计算机系统》 北大核心 2025年第8期1861-1868,共8页
飞行自组织网络FANET的高度动态性和不稳定性,导致通讯节点易失效、易受到攻击、欺骗等,为飞行自组织网络的可靠通信带来了巨大挑战.针对飞行自组织网络的高动态性以及链路不可靠问题,提出了一种基于强化学习动态特征驱动的可靠路由发... 飞行自组织网络FANET的高度动态性和不稳定性,导致通讯节点易失效、易受到攻击、欺骗等,为飞行自组织网络的可靠通信带来了巨大挑战.针对飞行自组织网络的高动态性以及链路不可靠问题,提出了一种基于强化学习动态特征驱动的可靠路由发现算法,并设计了一种基于强化学习的可靠路由协议RR-AODV(Reliable Reinforcement AODV).首先,通过距离和相对运动速度矢量双约束条件进行可靠节点预筛选,预判并规避短期链路中断风险,有效避免因节点高速移动导致的频繁路径重建.其次,通过时间、质量、能量、空间四维联合链路评估方法,建立可靠邻居链路,改善了动态网络中节点易失效、链路易中断等问题.最后,通过Q-learning算法构建拓扑感知的智能决策引擎,将洪泛式路由发现改进为动态链路特征驱动的精准单播探索,解决了AODV协议洪泛广播的资源浪费、链路不可靠的问题.经实验表明,相较于AODV、AODV-ETX和P-AODV协议,该协议在投递率和路由开销性能上均有改善,能够更好地适应飞行自组织网络. 展开更多
关键词 飞行自组织网 强化学习 AODV Q-leaning 路由算法
在线阅读 下载PDF
基于深度强化学习的改进RRT算法路径规划
15
作者 梁秀满 刘子良 刘振东 《系统仿真学报》 北大核心 2025年第10期2578-2593,共16页
针对RRT算法在三维复杂场景中规划全局路径时存在规划效率低、安全性和实用性较差而无法满足无人机对飞行路径的安全需求,提出SAC深度强化学习算法与RRT算法融合的SAC-RRT算法。设计基于SAC算法决策网络的目标点偏置策略和动态步长策略... 针对RRT算法在三维复杂场景中规划全局路径时存在规划效率低、安全性和实用性较差而无法满足无人机对飞行路径的安全需求,提出SAC深度强化学习算法与RRT算法融合的SAC-RRT算法。设计基于SAC算法决策网络的目标点偏置策略和动态步长策略,降低RRT盲目性;设计随机点修正过程,根据决策网络输出动作优化随机点位置,改善路径安全性;设计精简步骤和平滑步骤,进一步提高路径安全性。设计了不同复杂程度的三维场景,规划结果表明:SAC-RRT算法有效缩短了路径长度和规划时间,改善了路径的平滑性和安全性。 展开更多
关键词 深度强化学习 SAC算法 RRT算法 无人机 三次B样条
在线阅读 下载PDF
深度强化学习引导的多种群协同进化超多目标优化算法
16
作者 许莹 刘佳 +2 位作者 陈斌辉 刘益萍 刘志中 《计算机学报》 北大核心 2025年第10期2371-2405,共35页
超多目标优化问题因高维决策空间与复杂计算成本等特点而极具挑战。作为求解方法之一,多种群协同进化算法通过协同机制在求解此类问题时有较好的效果,但仍存在计算成本高、搜索效率低等局限性。近年来,强化学习因其卓越的决策能力被引... 超多目标优化问题因高维决策空间与复杂计算成本等特点而极具挑战。作为求解方法之一,多种群协同进化算法通过协同机制在求解此类问题时有较好的效果,但仍存在计算成本高、搜索效率低等局限性。近年来,强化学习因其卓越的决策能力被引入进化算法框架,成为提升算法性能的关键技术。因此,本文提出了一种深度强化学习引导的多种群协同进化超多目标优化算法DQNMaOEA,用于求解复杂的超多目标优化问题。为了有效引导大规模决策空间的搜索,提高算法在高维目标空间的搜索能力,本文提出了一种基于深度强化学习模型的自适应子种群选择方法,通过强化学习与环境进行交互选择具有更高潜力的子种群,然后与基于效用值选择的子种群进行协同进化,产生具有更优多样性与收敛性的子代解。此外,为了降低计算成本,提高算法的搜索效率,本文进一步提出了一种自适应子种群计算资源分配策略,根据当前子种群对整个种群优化过程的效用值改进贡献,动态分配子种群的适应值评估次数。为了验证算法及相关策略的性能,本文在大量基准测试集问题及实际物流大规模超多目标车辆路径问题实例上,与现有的不同类型前沿算法进行了大量对比实验。实验分析表明,本文提出的算法在求解性能与解质量上显著优于大部分对比算法。具体表现为:在评估解收敛性与多样性的综合指标上,DQNMaOEA在80%以上的基准测试实例中取得最优结果,较现有最佳算法的平均性能指标提升达1.2~2.0倍。而在计算效率方面,算法的平均运行时间较对比算法降低约25%。特别地,在7个实际物流问题实例中,算法在解的性能指标上获得6项最优结果,且求解效率显著优于对比算法。这些结果充分验证了该算法在解质量、计算效率和实际应用潜力上的综合优势。 展开更多
关键词 超多目标优化 超多目标进化算法 自适应种群选择 自适应计算资源分配 强化学习
在线阅读 下载PDF
快速综合学习粒子群优化算法 被引量:3
17
作者 杨帆 乌景秀 +2 位作者 范子武 李子祥 朱沈涛 《水利水电技术(中英文)》 北大核心 2025年第2期30-44,共15页
【目的】粒子群优化算法在反问题求解、函数优化、数据挖掘、机器学习等研究领域广泛应用,但在求解复杂多峰问题时仍存在过早收敛的问题。为了提升粒子群算法在处理复杂多峰问题求解速度和精度,提出了快速综合学习粒子群优化算法(Fast C... 【目的】粒子群优化算法在反问题求解、函数优化、数据挖掘、机器学习等研究领域广泛应用,但在求解复杂多峰问题时仍存在过早收敛的问题。为了提升粒子群算法在处理复杂多峰问题求解速度和精度,提出了快速综合学习粒子群优化算法(Fast Comprehensive Learning Particle Swarm Optimization,FCLPSO)。【方法】FCLPSO算法引入粒子学习概率、个体影响概率、群体影响概率三个属性,表征每个粒子个体“与生俱来”的不同学习能力,同时新增强化学习、粒子重生等策略,提升算法收敛速度以及监测并跳出“伪收敛”状态。选用14个标准测试函数以及6种常用粒子群变体算法开展FCLPSO算法性能分析。【结果】结果显示:在收敛性方面,FCLPSO算法平均排名为1.86,排名第一次数为7次、排名第二的次数为2次、排名最后次数为0,最终综合排名第一;在鲁棒性方面,FCLPSO算法成功率排名第一,平均值为94.3%,14个测试函数中最低成功率为73.3%;达到阈值所需适应度评价次数最少,平均值40817,较其他算法评价次数少一半。【结论】结果表明:FCLPSO算法在收敛精度、收敛速度和鲁棒性方面排名综合第一,对复杂多峰问题求解更具优势,可为工程应用中复杂优化问题求解提供重要手段。 展开更多
关键词 粒子群优化算法 强化学习 粒子属性 粒子重生 过早收敛 影响因素 人工智能 全局搜索
在线阅读 下载PDF
深度强化学习求解动态柔性作业车间调度问题 被引量:1
18
作者 杨丹 舒先涛 +3 位作者 余震 鲁光涛 纪松霖 王家兵 《现代制造工程》 北大核心 2025年第2期10-16,共7页
随着智慧车间等智能制造技术的不断发展,人工智能算法在解决车间调度问题上的研究备受关注,其中车间运行过程中的动态事件是影响调度效果的一个重要扰动因素,为此提出一种采用深度强化学习方法来解决含有工件随机抵达的动态柔性作业车... 随着智慧车间等智能制造技术的不断发展,人工智能算法在解决车间调度问题上的研究备受关注,其中车间运行过程中的动态事件是影响调度效果的一个重要扰动因素,为此提出一种采用深度强化学习方法来解决含有工件随机抵达的动态柔性作业车间调度问题。首先以最小化总延迟为目标建立动态柔性作业车间的数学模型,然后提取8个车间状态特征,建立6个复合型调度规则,采用ε-greedy动作选择策略并对奖励函数进行设计,最后利用先进的D3QN算法进行求解并在不同规模车间算例上进行了有效性验证。结果表明,提出的D3QN算法能非常有效地解决含有工件随机抵达的动态柔性作业车间调度问题,在所有车间算例中的求优胜率为58.3%,相较于传统的DQN和DDQN算法车间延迟分别降低了11.0%和15.4%,进一步提升车间的生产制造效率。 展开更多
关键词 深度强化学习 D3QN算法 工件随机抵达 柔性作业车间调度 动态调度
在线阅读 下载PDF
基于学习型多策略改进鲸鱼算法的路径规划研究 被引量:3
19
作者 岳凡 艾尔肯·亥木都拉 刘拴 《组合机床与自动化加工技术》 北大核心 2025年第2期46-51,56,共7页
为解决机器人在路径规划中路径过长与后期寻优停滞的问题,提出了一种学习型多策略改进鲸鱼优化算法(reinforcement learning multi-strategy improvement whale optimization algorithm,RLMIWOA),并在欧式距离的基础上引入了障碍物信息... 为解决机器人在路径规划中路径过长与后期寻优停滞的问题,提出了一种学习型多策略改进鲸鱼优化算法(reinforcement learning multi-strategy improvement whale optimization algorithm,RLMIWOA),并在欧式距离的基础上引入了障碍物信息与拐点信息,构建了路径规划适应度函数。首先,引入自适应帐篷映射初始化,使得初始化种群更加均匀;其次,引入了非线性收敛策略平衡算法的开发和探索阶段;然后,通过采用非线性加权因子对最优个体进行扰动,避免了其他个体对最优个体的“盲从”;最后,通过采用强化学习结合ε-精英逐维反向学习策略和动态局部最优逃生策略,提高了算法的收敛效率和跳出局部最优的能力。实验结果表明:RLMIWOA算法可以高效地找到最优路径,在路径搜索方面具有显著的优势。 展开更多
关键词 路径规划 强化学习 鲸鱼优化算法 适应度函数 局部最优
在线阅读 下载PDF
基于深度强化学习的空天地一体化网络资源分配算法 被引量:7
20
作者 刘雪芳 毛伟灏 杨清海 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第7期2831-2841,共11页
空天地一体化网络(SAGIN)通过提高地面网络的资源利用率可以有效满足多种业务类型的通信需求,然而忽略了系统的自适应能力和鲁棒性及不同用户的服务质量(QoS)。针对这一问题,该文提出在空天地一体化网络架构下,面向城区和郊区通信的深... 空天地一体化网络(SAGIN)通过提高地面网络的资源利用率可以有效满足多种业务类型的通信需求,然而忽略了系统的自适应能力和鲁棒性及不同用户的服务质量(QoS)。针对这一问题,该文提出在空天地一体化网络架构下,面向城区和郊区通信的深度强化学习(DRL)资源分配算法。基于第3代合作伙伴计划(3GPP)标准中定义的用户参考信号接收功率(RSRP),考虑地面同频干扰情况,以不同域中基站的时频资源作为约束条件,构建了最大化系统用户的下行吞吐量优化问题。利用深度Q网络(DQN)算法求解该优化问题时,定义了能够综合考虑用户服务质量需求、系统自适应能力及系统鲁棒性的奖励函数。仿真结果表明,综合考虑无人驾驶汽车,沉浸式服务及普通移动终端通信业务需求时,表征系统性能的奖励函数值在2 000次迭代下,相较于贪婪算法提升了39.1%;对于无人驾驶汽车业务,利用DQN算法进行资源分配后,相比于贪婪算法,丢包数平均下降38.07%,时延下降了6.05%。 展开更多
关键词 空天地一体化网络 资源分配算法 深度强化学习 深度Q网络
在线阅读 下载PDF
上一页 1 2 30 下一页 到第
使用帮助 返回顶部