期刊文献+
共找到271篇文章
< 1 2 14 >
每页显示 20 50 100
基于改进深度强化学习算法的自动电压调节器控制 被引量:1
1
作者 阮柏松 刘利 +3 位作者 顾阳 刘琦 王涵 赵晶晶 《电力系统及其自动化学报》 北大核心 2025年第6期150-158,共9页
为适应大容量同步发电机组并网点母线电压波动增加对自动电压调节器(automatic voltage regulator,AVR)系统响应能力的更高要求,提出一种基于含探索网络的双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient wi... 为适应大容量同步发电机组并网点母线电压波动增加对自动电压调节器(automatic voltage regulator,AVR)系统响应能力的更高要求,提出一种基于含探索网络的双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient with Explorer network,TD3EN)算法的同步发电机励磁电压控制方法。首先,通过传递函数对同步发电机励磁调压子系统进行建模;然后建立TD3EN算法探索网络、动作网络和评价网络,并设置相应参数;接着利用TD3EN算法训练智能体,通过探索网络探索动作空间,并根据评价网络更新动作网络参数,使其为AVR提供控制信号;将训练完成的智能体接入AVR系统,实现对发电机机端电压的控制。仿真结果表明,所提方法提高了AVR系统响应调节指令和应对电压暂降的能力。 展开更多
关键词 双延迟深度确定性策略梯度算法 探索网络 深度强化学习 同步发电机 自动电压调节器
在线阅读 下载PDF
基于改进深度强化学习算法的农业机器人路径规划
2
作者 赵威 张万枝 +4 位作者 侯加林 侯瑞 李玉华 赵乐俊 程进 《浙江大学学报(工学版)》 北大核心 2025年第7期1492-1503,共12页
农业机器人采用深度强化学习算法进行路径规划时存在难以找到目标点、稀疏奖励、收敛缓慢等问题,为此提出基于多目标点导航融合改进深度Q网络算法(MPN-DQN)的路径规划方法.利用激光同步定位与建图(SLAM)扫描全局环境以构建先验地图,划... 农业机器人采用深度强化学习算法进行路径规划时存在难以找到目标点、稀疏奖励、收敛缓慢等问题,为此提出基于多目标点导航融合改进深度Q网络算法(MPN-DQN)的路径规划方法.利用激光同步定位与建图(SLAM)扫描全局环境以构建先验地图,划分行走行和作物行区域;对地图边界进行膨胀拟合处理,形成前向弓字形作业走廊.利用中间目标点分割全局环境,将复杂环境划分为多阶段短程导航环境以简化目标点搜索过程.从动作空间、探索策略和奖励函数3个方面改进深度Q网络算法以改善奖励稀疏问题,加快算法收敛速度,提高导航成功率.实验结果表明,搭载MPN-DQN的农业机器人自主行驶的总碰撞次数为1,平均导航时间为104.27 s,平均导航路程为16.58 m,平均导航成功率为95%. 展开更多
关键词 深度强化学习 农业机器人 中间目标点 多目标点导航融合改进深度Q网络算法(MPN-DQN) 路径规划
在线阅读 下载PDF
基于深度强化学习的游戏智能引导算法 被引量:2
3
作者 白天 吕璐瑶 +1 位作者 李储 何加亮 《吉林大学学报(理学版)》 北大核心 2025年第1期91-98,共8页
针对传统游戏智能体算法存在模型输入维度大及训练时间长的问题,提出一种结合状态信息转换与奖励函数塑形技术的新型深度强化学习游戏智能引导算法.首先,利用Unity引擎提供的接口直接读取游戏后台信息,以有效压缩状态空间的维度,减少输... 针对传统游戏智能体算法存在模型输入维度大及训练时间长的问题,提出一种结合状态信息转换与奖励函数塑形技术的新型深度强化学习游戏智能引导算法.首先,利用Unity引擎提供的接口直接读取游戏后台信息,以有效压缩状态空间的维度,减少输入数据量;其次,通过精细化设计奖励机制,加速模型的收敛过程;最后,从主观定性和客观定量两方面对该算法模型与现有方法进行对比实验,实验结果表明,该算法不仅显著提高了模型的训练效率,还大幅度提高了智能体的性能. 展开更多
关键词 深度强化学习 游戏智能体 奖励函数塑形 近端策略优化算法
在线阅读 下载PDF
基于改进蜣螂优化算法深度混合核极限学习机的高压断路器故障诊断
4
作者 范兴明 许洪华 +3 位作者 张思舜 李涛 蒋延军 张鑫 《电工技术学报》 北大核心 2025年第12期3994-4003,共10页
针对高压断路器机械故障诊断准确率偏低的问题,该文提出一种基于改进蜣螂优化算法(IDBO)优化深度混合核极限学习机(DHKELM)的故障诊断方法。首先,采用逐次变分模态分解(SVMD)对高压断路器合闸振动信号进行分解,得到若干个含本征频率的... 针对高压断路器机械故障诊断准确率偏低的问题,该文提出一种基于改进蜣螂优化算法(IDBO)优化深度混合核极限学习机(DHKELM)的故障诊断方法。首先,采用逐次变分模态分解(SVMD)对高压断路器合闸振动信号进行分解,得到若干个含本征频率的固有模态分量(IMF);其次,提取各IMF分量的功率谱熵构建特征向量矩阵,并利用t分布-随机邻域嵌入算法(t-SNE)对特征向量进行数据降维;然后,引入融合Tent混沌映射、黄金正弦策略、自适应t分布扰动策略对传统蜣螂优化算法(DBO)进行改进,并使用IDBO对DHKELM进行参数优化,完成IDBO-DHKELM高压断路器故障诊断模型的构建;最后,通过搭建模拟故障的实物断路器实验平台进行验证,结果表明,该文提出的方法在故障诊断上的准确率达到了98.33%,相较于其他故障诊断模型在多项分类评价指标上均有显著提升,为准确、可靠地诊断高压断路器机械故障提供了新方案。 展开更多
关键词 高压断路器 改进蜣螂优化算法 深度混合核极限学习 故障诊断 逐次变分模 态分解
在线阅读 下载PDF
动态环境下共融机器人深度强化学习导航算法 被引量:1
5
作者 顾金浩 况立群 +2 位作者 韩慧妍 曹亚明 焦世超 《计算机工程与应用》 北大核心 2025年第4期90-98,共9页
在过去的几十年里,移动服务机器人的导航算法得到了广泛研究,但智能体仍然缺乏人类在拥挤环境中展现出的复杂性和合作性。随着人机共融的应用不断拓展,机器人和人类共享工作空间的协作将愈发重要,因此下一代移动服务机器人需要符合社交... 在过去的几十年里,移动服务机器人的导航算法得到了广泛研究,但智能体仍然缺乏人类在拥挤环境中展现出的复杂性和合作性。随着人机共融的应用不断拓展,机器人和人类共享工作空间的协作将愈发重要,因此下一代移动服务机器人需要符合社交要求,才能被人类接受。为了提升多智能体在动态场景中的自主导航能力,针对多智能体导航中社会适应性低和寻找最优值函数问题,提出了一种动态环境下共融机器人深度强化学习避障算法。建立了更贴近人类行为的运动模型并将其添加到深度强化学习框架中,用于提高共融机器人的合作性;为了在行人物理安全的基础上提升其感知安全,重新制定了奖励函数;利用非线性深度神经网络代替传统的值函数,解决寻找最优值函数问题。仿真实验显示,相较于最新的深度强化学习导航方法,该方法在不增加导航时间的情况下实现了100%的导航成功率,且没有发生任何碰撞。结果表明,该方法使共融机器人最大限度地满足人类的社交原则,同时朝着目标前进,有效提高了行人的感知安全。 展开更多
关键词 服务机器人 避障算法 深度强化学习 最优值函数 奖励函数
在线阅读 下载PDF
基于深度强化学习的离散状态转移算法求解柔性作业车间调度问题
6
作者 朱家政 王聪 +2 位作者 李新凯 董颖超 张宏立 《北京航空航天大学学报》 北大核心 2025年第4期1385-1394,共10页
柔性作业车间调度问题(FJSP)作为一种在实际生活中应用广泛的调度问题,对其智能算法具有重要价值。为了解决FJSP,以最小化最大完工时间为优化目标,提出了一种基于近端策略优化的离散状态转移算法(DSTA-PPO)。DSTA-PPO具有3个特点:考虑到... 柔性作业车间调度问题(FJSP)作为一种在实际生活中应用广泛的调度问题,对其智能算法具有重要价值。为了解决FJSP,以最小化最大完工时间为优化目标,提出了一种基于近端策略优化的离散状态转移算法(DSTA-PPO)。DSTA-PPO具有3个特点:考虑到FJSP需要同时对工序排序、机器分配同时进行调度安排,结合工序编码和机器编码,设计了一种能够充分表达当前调度问题的状态特征;针对工序排序、机器分配设计了多种基于关键路径的搜索操作;通过强化学习的训练,能够有效地引导智能体选择正确的搜索操作优化当前的调度序列。通过基于不同数据集的仿真实验,验证了算法各环节的有效性,同时在相同算例上以最小化最大完工时间为对比指标与现有算法进行了比较,对比结果表明了所提算法能够在多数算例上以更短的完工时间对算例完成求解,有效地求解了柔性作业车间调度问题。 展开更多
关键词 深度学习 强化学习 离散状态转移算法 近端策略优化算法 柔性作业车间调度
在线阅读 下载PDF
基于深度强化学习的变步长LMS算法
7
作者 徐君阳 张红梅 张坤 《仪器仪表学报》 北大核心 2025年第2期70-80,共11页
针对定步长LMS算法在收敛速度和稳态误差之间难以取得平衡的问题以及传统变步长算法对初始参数选择依赖程度高、工作量大且存在主观性的缺陷,提出了一种基于深度强化学习的变步长LMS算法。该算法对初始参数的依赖性小,规避了繁琐的调参... 针对定步长LMS算法在收敛速度和稳态误差之间难以取得平衡的问题以及传统变步长算法对初始参数选择依赖程度高、工作量大且存在主观性的缺陷,提出了一种基于深度强化学习的变步长LMS算法。该算法对初始参数的依赖性小,规避了繁琐的调参流程。首先,构建了一个融合深度强化学习和自适应滤波的算法模型,该模型利用深度强化学习智能体控制步长因子的变化,代替了传统变步长算法中用于步长调整的非线性函数,从而规避了繁琐的实验调参流程,降低了算法使用的复杂性。其次,提出了基于误差的状态奖励和基于步长的动作奖励函数,引入动态奖励与负奖励机制,有效提升算法的收敛速度。此外,设计了基于欠完备编码器的网络结构,提高了强化学习策略的推理能力。通过实验验证,相较于其他较新的变步长算法,所提出的算法具有更快的收敛速度和更小的稳态误差,在不同初始参数下均能快速调整至合理的步长值,减少了实验调参的工作量。将训练完成的网络应用到系统辨识、信号去噪以及截流区龙口水域水位信号的滤波等实际领域中,均取得了良好的性能表现,证明了算法具有一定的泛化能力,并进一步证实了其有效性。 展开更多
关键词 变步长LMS算法 深度强化学习 自适应滤波 奖励函数
在线阅读 下载PDF
基于改进型多模态信息融合深度强化学习的自主超声扫描方法
8
作者 徐加开 陆奇 +1 位作者 李祥云 李康 《计算机应用研究》 北大核心 2025年第6期1624-1631,共8页
针对基于深度强化学习的自主超声扫描方法存在训练扫描精度低、训练时间长、扫描任务成功率较低的问题,提出了一种基于改进型多模态信息融合深度强化学习的自主超声扫描方法。首先,该方法融合了超声图像、双视角探头操作图像和6D触觉反... 针对基于深度强化学习的自主超声扫描方法存在训练扫描精度低、训练时间长、扫描任务成功率较低的问题,提出了一种基于改进型多模态信息融合深度强化学习的自主超声扫描方法。首先,该方法融合了超声图像、双视角探头操作图像和6D触觉反馈提供全面的多模态感知信息。为精准捕捉多模态中的时空信息和实现多模态特征的高效融合,设计了一个基于自注意力机制(self-attention mechanism,SA)的多模态特征提取与融合模块。其次,将机器人的6D位姿动作决策任务建模为深度强化学习问题。为贴近专业超声从业医生的操作,设计了混合奖励函数。最后,为解决深度强化学习训练中出现的局部最优和收敛速度慢的问题,提出了DSAC-PERDP(discrete soft actor-critic with prioritized experience replay based on dynamic priority)算法。在真实环境中的测试表明,该方法在扫描精度、任务成功率和训练速度方面较基线模型分别提升了49.8%、13.4%和260.0%,在干扰条件下仍保持良好性能。实验证明,该方法显著提升了扫描精度、任务成功率和训练速度,并具有一定的抗干扰能力。 展开更多
关键词 自主超声扫描 深度强化学习 多模态 自注意力机制 DSAC-PERDP算法
在线阅读 下载PDF
深度强化学习求解动态柔性作业车间调度问题 被引量:1
9
作者 杨丹 舒先涛 +3 位作者 余震 鲁光涛 纪松霖 王家兵 《现代制造工程》 北大核心 2025年第2期10-16,共7页
随着智慧车间等智能制造技术的不断发展,人工智能算法在解决车间调度问题上的研究备受关注,其中车间运行过程中的动态事件是影响调度效果的一个重要扰动因素,为此提出一种采用深度强化学习方法来解决含有工件随机抵达的动态柔性作业车... 随着智慧车间等智能制造技术的不断发展,人工智能算法在解决车间调度问题上的研究备受关注,其中车间运行过程中的动态事件是影响调度效果的一个重要扰动因素,为此提出一种采用深度强化学习方法来解决含有工件随机抵达的动态柔性作业车间调度问题。首先以最小化总延迟为目标建立动态柔性作业车间的数学模型,然后提取8个车间状态特征,建立6个复合型调度规则,采用ε-greedy动作选择策略并对奖励函数进行设计,最后利用先进的D3QN算法进行求解并在不同规模车间算例上进行了有效性验证。结果表明,提出的D3QN算法能非常有效地解决含有工件随机抵达的动态柔性作业车间调度问题,在所有车间算例中的求优胜率为58.3%,相较于传统的DQN和DDQN算法车间延迟分别降低了11.0%和15.4%,进一步提升车间的生产制造效率。 展开更多
关键词 深度强化学习 D3QN算法 工件随机抵达 柔性作业车间调度 动态调度
在线阅读 下载PDF
一种进化梯度引导的强化学习算法
10
作者 许斌 练元洪 +2 位作者 卞鸿根 刘丹 亓晋 《南京邮电大学学报(自然科学版)》 北大核心 2025年第1期99-105,共7页
进化算法(Evolutionary Algorithm,EA)和深度强化学习(Deep Reinforcement Learning,DRL)的组合被认为能够结合二者的优点,即EA的强大随机搜索能力和DRL的样本效率,实现更好的策略学习。然而,现有的组合方法存在EA引入所导致的策略性能... 进化算法(Evolutionary Algorithm,EA)和深度强化学习(Deep Reinforcement Learning,DRL)的组合被认为能够结合二者的优点,即EA的强大随机搜索能力和DRL的样本效率,实现更好的策略学习。然而,现有的组合方法存在EA引入所导致的策略性能不可预测性问题。提出自适应历史梯度引导机制,其利用历史梯度信息,找到平衡探索和利用的线索,从而获得较为稳定的高质量策略,进一步将此机制融合经典的进化强化学习算法,提出一种进化梯度引导的强化学习算法(Evolutionary Gradient Guided Reinforcement Learning,EGG⁃RL)。在连续控制任务方面的实验表明,EGG⁃RL的性能表现优于其他方法。 展开更多
关键词 CEM⁃RL 深度强化学习 进化算法 历史梯度
在线阅读 下载PDF
基于随机对称搜索的进化强化学习算法
11
作者 邸剑 万雪 姜丽梅 《计算机工程与科学》 北大核心 2025年第5期912-920,共9页
进化算法的引入极大地提高了强化学习算法的性能。然而,现有的基于进化强化学习ERL的算法还存在易陷入欺骗性奖励、易收敛到局部最优和稳定性差的问题。为了解决这些问题,提出了一种随机对称搜索策略,直接作用于策略网络参数,在策略网... 进化算法的引入极大地提高了强化学习算法的性能。然而,现有的基于进化强化学习ERL的算法还存在易陷入欺骗性奖励、易收敛到局部最优和稳定性差的问题。为了解决这些问题,提出了一种随机对称搜索策略,直接作用于策略网络参数,在策略网络参数中心的基础上由最优策略网络参数指导全局策略网络参数优化更新,同时辅以梯度优化,引导智能体进行多元探索。在MuJoCo的5个机器人运动连续控制任务中的实验结果表明,提出的算法性能优于以前的进化强化学习算法,且具有更快的收敛速度。 展开更多
关键词 深度强化学习 进化算法 进化强化学习 随机对称搜索
在线阅读 下载PDF
基于深度强化学习的停机位分配
12
作者 向征 吴秋玥 +1 位作者 储同 岳伊杨 《科学技术与工程》 北大核心 2025年第16期6977-6984,共8页
针对停机位分配问题展开系统研究,目标是最小化远机位分配数量以及近机位空闲时间,针对其多目标多约束特性,提出以最小远机位分配数量和最小近机位空闲时间为目标的多目标数学模型,该模型考虑了航班进出港实际时间、机型类别及停机位间... 针对停机位分配问题展开系统研究,目标是最小化远机位分配数量以及近机位空闲时间,针对其多目标多约束特性,提出以最小远机位分配数量和最小近机位空闲时间为目标的多目标数学模型,该模型考虑了航班进出港实际时间、机型类别及停机位间相互关系等参数。结合深度强化学习方法,特别是深度确定性策略梯度算法(deep deterministic policy gradient,DDPG),对停机位分配过程进行优化。为提升算法的寻优能力与性能,设计了改进后的DDPG算法,融入优先级经验回放和多策略融合探索机制。通过对比实验,表明改进后的算法更优,显著减少了最小远机位分配数量并优化了近机位空闲时间,且收敛更快、全局寻优能力更强,充分证实了其有效性。 展开更多
关键词 停机位分配 深度学习 强化学习 深度确定性策略梯度算法(DDPG)
在线阅读 下载PDF
基于深度强化学习的空天地一体化网络资源分配算法 被引量:5
13
作者 刘雪芳 毛伟灏 杨清海 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第7期2831-2841,共11页
空天地一体化网络(SAGIN)通过提高地面网络的资源利用率可以有效满足多种业务类型的通信需求,然而忽略了系统的自适应能力和鲁棒性及不同用户的服务质量(QoS)。针对这一问题,该文提出在空天地一体化网络架构下,面向城区和郊区通信的深... 空天地一体化网络(SAGIN)通过提高地面网络的资源利用率可以有效满足多种业务类型的通信需求,然而忽略了系统的自适应能力和鲁棒性及不同用户的服务质量(QoS)。针对这一问题,该文提出在空天地一体化网络架构下,面向城区和郊区通信的深度强化学习(DRL)资源分配算法。基于第3代合作伙伴计划(3GPP)标准中定义的用户参考信号接收功率(RSRP),考虑地面同频干扰情况,以不同域中基站的时频资源作为约束条件,构建了最大化系统用户的下行吞吐量优化问题。利用深度Q网络(DQN)算法求解该优化问题时,定义了能够综合考虑用户服务质量需求、系统自适应能力及系统鲁棒性的奖励函数。仿真结果表明,综合考虑无人驾驶汽车,沉浸式服务及普通移动终端通信业务需求时,表征系统性能的奖励函数值在2 000次迭代下,相较于贪婪算法提升了39.1%;对于无人驾驶汽车业务,利用DQN算法进行资源分配后,相比于贪婪算法,丢包数平均下降38.07%,时延下降了6.05%。 展开更多
关键词 空天地一体化网络 资源分配算法 深度强化学习 深度Q网络
在线阅读 下载PDF
基于深度强化学习的电力系统紧急切机稳控策略生成方法 被引量:2
14
作者 高琴 徐光虎 +3 位作者 夏尚学 杨欢欢 赵青春 黄河 《电力科学与技术学报》 北大核心 2025年第1期39-46,共8页
电力系统快速发展的同时也改变着电力系统的结构,使得系统稳定机理变得更加复杂。为解决新能源电力系统存在的功角稳定问题,提出基于深度强化学习的电力系统紧急切机稳控策略生成方法。首先,归纳并提出电力系统紧急控制切机动作策略以... 电力系统快速发展的同时也改变着电力系统的结构,使得系统稳定机理变得更加复杂。为解决新能源电力系统存在的功角稳定问题,提出基于深度强化学习的电力系统紧急切机稳控策略生成方法。首先,归纳并提出电力系统紧急控制切机动作策略以及涉及的安全约束,并将电力系统稳控模型转换为马尔科夫决策过程,再采用特征评估与斯皮尔曼(Spearman)等级相关系数方法筛选出最典型的特征数据;随后,为提高稳控策略智能体的训练效率,提出基于深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法的稳控策略训练框架;最后,在IEEE 39节点系统和某实际电网中进行测试验证。研究结果显示,所提方法能够根据系统的运行状态和对故障的响应,自动调整生成切机稳控策略,在决策效果和效率方面都表现出更好的性能。 展开更多
关键词 新能源电力系统 稳控策略 强化学习 深度确定性策略梯度算法 马尔科夫模型
在线阅读 下载PDF
基于状态空间扩展的深度强化学习混合流水车间调度
15
作者 汤怀钰 王聪 +2 位作者 张宏立 马萍 董颖超 《组合机床与自动化加工技术》 北大核心 2025年第4期195-200,共6页
针对混合流水车间调度问题(hybrid flow shop problem, HFSP),以最小化最大完工时间和最小总能耗为求解目标,提出一种基于状态空间扩展的深度强化学习新方法。将状态特征由传统单一方式转变为多特征状态元组,并通过引入新的动作选择规... 针对混合流水车间调度问题(hybrid flow shop problem, HFSP),以最小化最大完工时间和最小总能耗为求解目标,提出一种基于状态空间扩展的深度强化学习新方法。将状态特征由传统单一方式转变为多特征状态元组,并通过引入新的动作选择规则来优化加工机器的选择。设计了奖励机制为最大加工时间和能耗的负相关,激励系统在调度过程中尽量减少加工时间和总能耗从而更有效地利用资源。通过将PPORL方法应用于不同数据集进行仿真实验,并与现有算法比较,结果表明,所提方法具有更强的稳定性、探索性和泛化能力,显著提高了调度效率和资源利用率,有效地解决了多目标混合流水车间调度问题。 展开更多
关键词 节能减排 混合流水车间调度 深度强化学习 近端策略优化算法
在线阅读 下载PDF
基于深度强化学习的Windows域渗透攻击路径生成方法
16
作者 霍兴鹏 沙乐天 +2 位作者 刘建文 吴尚 苏子悦 《计算机科学》 北大核心 2025年第3期400-406,共7页
Windows域被视作内网渗透测试的重点目标,然而Windows域渗透测试的场景和方法与常规的内网渗透有很大差异。因此,当前常规的智能化路径发现研究并不适用于Windows域环境。为了增强Windows域的安全防护,提出了一种基于深度强化学习的Wind... Windows域被视作内网渗透测试的重点目标,然而Windows域渗透测试的场景和方法与常规的内网渗透有很大差异。因此,当前常规的智能化路径发现研究并不适用于Windows域环境。为了增强Windows域的安全防护,提出了一种基于深度强化学习的Windows域渗透测试路径自动化生成方法。首先,将Windows域渗透测试场景建模为马尔可夫决策过程,通过OpenAI的Gymnasium设计了一个适用于强化学习的模拟器;其次,为了解决在大动作空间和观察空间下的探索不充分问题,提出了通过先验知识对冗余动作进行削减并对无效观察空间进行压缩的方法;最后,在小型服务器中利用虚拟机技术部署Windows域环境,以NDD-DQN作为基础算法,实现了在真实环境中从信息收集、模型构建到路径生成的全流程自动化。实验结果表明,所提方法在真实的Windows复杂环境中具有良好的模拟和训练效果。 展开更多
关键词 渗透测试 Windows域 深度强化学习 DQN算法 攻击路径
在线阅读 下载PDF
LoRa网络中基于深度强化学习的信息年龄优化
17
作者 程克非 陈彩蝶 +1 位作者 罗佳 陈前斌 《电子与信息学报》 北大核心 2025年第2期541-550,共10页
信息年龄(AoI)是信息新鲜度的衡量指标,针对时间敏感的物联网,最小化AoI显得尤为重要。该文基于LoRa网络的智能交通环境,分析Slot-Aloha协议下的AoI优化策略,建立了Slot-Aloha协议下数据包之间传输碰撞和等待时间的系统模型。通过分析指... 信息年龄(AoI)是信息新鲜度的衡量指标,针对时间敏感的物联网,最小化AoI显得尤为重要。该文基于LoRa网络的智能交通环境,分析Slot-Aloha协议下的AoI优化策略,建立了Slot-Aloha协议下数据包之间传输碰撞和等待时间的系统模型。通过分析指出,在LoRa上行传输过程中,随着数据包数量增多,AoI主要受到数据包碰撞影响。为克服优化问题中动作空间过大导致难以实现有效求解的问题,该文采用连续动作空间映射离散动作空间的方式,使用柔性动作-评价(SAC)算法对LoRa网络下的AoI进行优化。仿真结果显示,SAC算法优于传统算法与传统深度强化学习算法,可有效降低网络的平均AoI。 展开更多
关键词 信息年龄 LoRa 柔性动作-评价算法 深度强化学习 优化策略
在线阅读 下载PDF
基于深度强化学习的风电拉挤板生产智能排程
18
作者 杨逢海 杨晓英 +2 位作者 裴志杰 武亚琪 张志伟 《现代制造工程》 北大核心 2025年第1期23-32,共10页
针对具有包装顺序齐套和产品换型调整等复杂特征的风电拉挤板生产排程问题,构建了最大化当期开动设备平均利用率和最大化订单履约率的多目标协同优化模型;将风电拉挤板生产排程问题转化为马尔科夫序列决策问题,设计了10种不同排程策略... 针对具有包装顺序齐套和产品换型调整等复杂特征的风电拉挤板生产排程问题,构建了最大化当期开动设备平均利用率和最大化订单履约率的多目标协同优化模型;将风电拉挤板生产排程问题转化为马尔科夫序列决策问题,设计了10种不同排程策略作为动作空间,提炼适当的状态特征和奖励函数;提出一种基于决斗双深度Q网络(D3QN)的排程算法。通过某企业实际数据的仿真试验,与Double DQN和Dueling DQN算法对比验证所提算法有效性;并比较4种不同求解方法在10个算例下得到的目标值,验证了所提出的改进D3QN算法可以得到问题的高质量解,为风电拉挤板制造企业生产排程提供了一种智能化的方法和参考。 展开更多
关键词 风电 拉挤板 生产排程 深度强化学习 D3QN算法
在线阅读 下载PDF
基于深度强化学习的无人机博弈路径规划
19
作者 薛均晓 张世文 +2 位作者 陆亚飞 严笑然 付玮 《郑州大学学报(理学版)》 北大核心 2025年第4期8-14,共7页
针对深度强化学习方法在复杂环境下面对无人机博弈任务时学习效率较低的问题,提出了知识和数据联合驱动的深度强化学习模型。首先,借鉴了模仿学习的思想,将遗传算法作为启发式搜索策略,并收集专家经验知识;其次,通过深度强化学习与环境... 针对深度强化学习方法在复杂环境下面对无人机博弈任务时学习效率较低的问题,提出了知识和数据联合驱动的深度强化学习模型。首先,借鉴了模仿学习的思想,将遗传算法作为启发式搜索策略,并收集专家经验知识;其次,通过深度强化学习与环境进行交互,收集在线经验数据;最后,构建了知识和数据联合驱动的深度强化学习模型,用于优化无人机博弈策略。实验结果表明,所提模型有效提升了收敛速度和学习稳定性,经过训练的智能体具有较好的自主博弈路径规划能力。 展开更多
关键词 深度强化学习 无人机博弈 路径规划 遗传算法
在线阅读 下载PDF
基于改进深度确定性策略梯度算法的综合能源系统优化调度策略
20
作者 龚锦霞 李琛舟 柯慧 《现代电力》 北大核心 2025年第2期322-332,共11页
针对综合能源系统优化调度问题中存在的决策空间庞大、算法难以收敛等问题,提出一种基于改进深度确定性策略梯度算法(deep deterministic policy gradient,DDPG)的优化调度策略。通过增设第二个经验池,解决算法难以收敛,甚至寻优失败的... 针对综合能源系统优化调度问题中存在的决策空间庞大、算法难以收敛等问题,提出一种基于改进深度确定性策略梯度算法(deep deterministic policy gradient,DDPG)的优化调度策略。通过增设第二个经验池,解决算法难以收敛,甚至寻优失败的问题。针对综合能源系统优化调度问题,优化算法中网络参数更新流程,提高算法训练效率。同时,对奖励函数进行重新设计,采用非线性奖励函数进一步提高算法稳定性。最后,通过对一个包含光伏、储能系统、制冷机组、电加热机组和燃气锅炉组成的综合能源系统进行仿真,并对比算法改进前后的性能。算例表明,基于改进深度确定性策略梯度算法的优化调度策略具有较好的收敛性、稳定性和高效的训练效率,可以实现综合能源系统的灵活高效调度。 展开更多
关键词 综合能源系统 DDPG算法 马尔可夫决策过程 深度强化学习
在线阅读 下载PDF
上一页 1 2 14 下一页 到第
使用帮助 返回顶部