期刊文献+
共找到1,868篇文章
< 1 2 94 >
每页显示 20 50 100
基于多智能体深度强化学习的随机事件驱动故障恢复策略 被引量:2
1
作者 王冲 石大夯 +3 位作者 万灿 陈霞 吴峰 鞠平 《电力自动化设备》 北大核心 2025年第3期186-193,共8页
为了减少配电网故障引起的失负荷,提升配电网弹性,提出一种基于多智能体深度强化学习的随机事件驱动故障恢复策略:提出了在电力交通耦合网故障恢复中的随机事件驱动问题,将该问题描述为半马尔可夫随机决策过程问题;综合考虑系统故障恢... 为了减少配电网故障引起的失负荷,提升配电网弹性,提出一种基于多智能体深度强化学习的随机事件驱动故障恢复策略:提出了在电力交通耦合网故障恢复中的随机事件驱动问题,将该问题描述为半马尔可夫随机决策过程问题;综合考虑系统故障恢复优化目标,构建基于半马尔可夫的随机事件驱动故障恢复模型;利用多智能体深度强化学习算法对所构建的随机事件驱动模型进行求解。在IEEE 33节点配电网与Sioux Falls市交通网形成的电力交通耦合系统中进行算例验证,结果表明所提模型和方法在电力交通耦合网故障恢复中有着较好的应用效果,可实时调控由随机事件(故障维修和交通行驶)导致的故障恢复变化。 展开更多
关键词 随机事件驱动 故障恢复 深度强化学习 电力交通耦合网 多智能体
在线阅读 下载PDF
基于深度强化学习的温室环境协调控制系统设计 被引量:1
2
作者 左志宇 牟晋东 +4 位作者 毛罕平 韩绿化 胡建平 张晓东 金文帅 《农机化研究》 北大核心 2025年第5期22-27,共6页
针对温室温度、光照、水肥控制不协调导致的能耗高、水肥利用率低的问题,提出了基于深度强化学习的温室环境协调控制方法。以能耗、光合速率为优化目标,采用深度强化学习算法训练模型,对温度、光照调控目标值进行优化;通过分析不同营养... 针对温室温度、光照、水肥控制不协调导致的能耗高、水肥利用率低的问题,提出了基于深度强化学习的温室环境协调控制方法。以能耗、光合速率为优化目标,采用深度强化学习算法训练模型,对温度、光照调控目标值进行优化;通过分析不同营养液灌溉量对作物长势的影响,确定灌溉量动态调整方法;开发了基于深度强化学习的温室环境协调控制系统软硬件。实验结果表明:该方法能够协调控制温室温度、光照和水肥环境因子,与传统控制方法相比,环境调控能耗降低8.1%,营养液灌溉量降低7.9%,光合速率提升2.7%,能够为温室环境高效控制提供决策支持。 展开更多
关键词 温室 深度强化学习 协调控制 光合速率 能耗
在线阅读 下载PDF
基于深度强化学习的有源配电网多时间尺度源荷储协同优化调控 被引量:4
3
作者 李鹏 钟瀚明 +3 位作者 马红伟 李建锋 刘洋 王加浩 《电工技术学报》 北大核心 2025年第5期1487-1502,共16页
构建以新能源为主体的新型电力系统是实现“双碳”目标的重要举措,配电网源荷储协同是促进高比例风光能源消纳的有力措施。基于数据驱动的人工智能方法具有无模型、自适应等特点,可以自主学习风光能源及负荷的复杂不确定性,对有源配电... 构建以新能源为主体的新型电力系统是实现“双碳”目标的重要举措,配电网源荷储协同是促进高比例风光能源消纳的有力措施。基于数据驱动的人工智能方法具有无模型、自适应等特点,可以自主学习风光能源及负荷的复杂不确定性,对有源配电网优化调控具有良好的支撑作用。该文考虑源荷功率预测精度特点和设备运行调控特性,提出基于深度强化学习算法的有源配电网多时间尺度智能优化调控方法。其中,日前阶段制定储能系统和柔性负荷的调控计划,以实现配电网的经济运行,减小对上级电网造成的调峰压力,并针对多节点多时段状态空间设计相应的特征提取方法;日内阶段将优化调度问题转换为马尔科夫决策过程,设计表征联络线功率波动平抑和灵活性资源日前计划跟踪效果的奖励函数,实现了对全调控时段内的功率波动平抑及跟踪日前计划效果的统筹优化。最后通过修改后的IEEE 33算例系统验证了所提方法的有效性与优越性。 展开更多
关键词 有源配电网 优化调控 源荷储协同 深度强化学习
在线阅读 下载PDF
深度强化学习求解动态柔性作业车间调度问题 被引量:1
4
作者 杨丹 舒先涛 +3 位作者 余震 鲁光涛 纪松霖 王家兵 《现代制造工程》 北大核心 2025年第2期10-16,共7页
随着智慧车间等智能制造技术的不断发展,人工智能算法在解决车间调度问题上的研究备受关注,其中车间运行过程中的动态事件是影响调度效果的一个重要扰动因素,为此提出一种采用深度强化学习方法来解决含有工件随机抵达的动态柔性作业车... 随着智慧车间等智能制造技术的不断发展,人工智能算法在解决车间调度问题上的研究备受关注,其中车间运行过程中的动态事件是影响调度效果的一个重要扰动因素,为此提出一种采用深度强化学习方法来解决含有工件随机抵达的动态柔性作业车间调度问题。首先以最小化总延迟为目标建立动态柔性作业车间的数学模型,然后提取8个车间状态特征,建立6个复合型调度规则,采用ε-greedy动作选择策略并对奖励函数进行设计,最后利用先进的D3QN算法进行求解并在不同规模车间算例上进行了有效性验证。结果表明,提出的D3QN算法能非常有效地解决含有工件随机抵达的动态柔性作业车间调度问题,在所有车间算例中的求优胜率为58.3%,相较于传统的DQN和DDQN算法车间延迟分别降低了11.0%和15.4%,进一步提升车间的生产制造效率。 展开更多
关键词 深度强化学习 D3QN算法 工件随机抵达 柔性作业车间调度 动态调度
在线阅读 下载PDF
基于深度强化学习的高速列车驾驶策略优化 被引量:1
5
作者 徐凯 张皓桐 +2 位作者 张淼 张洋 吴仕勋 《铁道科学与工程学报》 北大核心 2025年第1期25-37,共13页
深度强化学习(DRL)是提高高速列车能源效率和运行质量最有前途的技术之一,但目前仍然存在着一些问题,限制了其在实际应用中的效果。现有解决方案存在以下两方面问题:首先,在高速列车运行环境下,DRL在处理庞大状态空间时表现不佳;其次,... 深度强化学习(DRL)是提高高速列车能源效率和运行质量最有前途的技术之一,但目前仍然存在着一些问题,限制了其在实际应用中的效果。现有解决方案存在以下两方面问题:首先,在高速列车运行环境下,DRL在处理庞大状态空间时表现不佳;其次,由于固定奖励函数难以适应不同调度运行时刻下的能效差异,智能体将受到不准确信号的干扰,通常采用手动方式调整。鉴于此,本研究在极大值原理基础上,综合考虑影响列车能效的诸多因素,提出一种高速列车智能驾驶策略的分层次优化的深度强化学习算法(HODRL)。该算法从结构上分为分层优化层和强化学习层。分层优化层利用先验知识降低智能体的探索复杂度,并根据能效场景重塑奖励函数,以实现对能效和时间等多个目标探索的有效平衡;而强化学习层则采取双延迟深度确定性策略梯度(TD3)算法,将其用于连续的动作空间,以提高列车操控的精确度。通过实验验证了HODRL算法在提升能效和准时性等方面的有效性,该算法平均减少79.68%的无效状态空间,并让智能体获得正确的奖励信号,预计节能和智能体实际节能相比均值误差为1.99kWh,方差为0.91kWh。所提算法仅需要TD3算法15.26%的训练时间即可收敛,并与其他基线算法相比较,在时间误差为±0.1%并保证乘客舒适度时,相比PPO、DDPG、TD3、PMP算法分别能耗减少了1.29%,5.70%,1.69%,3.27%。研究结果可为进一步优化高速列车驾驶策略和保障高速列车安全运营提供有效参考。 展开更多
关键词 高速列车 分层次优化 深度强化学习 状态空间约束 奖励重塑
在线阅读 下载PDF
MA-CDMR:多域SDWN中一种基于多智能体深度强化学习的智能跨域组播路由方法 被引量:1
6
作者 叶苗 胡洪文 +4 位作者 王勇 何倩 王晓丽 文鹏 郑基浩 《计算机学报》 北大核心 2025年第6期1417-1442,共26页
多域软件定义无线网络(SDWN)中的跨域组播路由问题不仅是NP难组合优化问题,随着网络规模的增加和组播组成员的动态变化,构建高效的跨域组播路由路径还需要及时灵活获取和维护全局网络状态信息并设计出最优跨域组播树问题的求解算法。针... 多域软件定义无线网络(SDWN)中的跨域组播路由问题不仅是NP难组合优化问题,随着网络规模的增加和组播组成员的动态变化,构建高效的跨域组播路由路径还需要及时灵活获取和维护全局网络状态信息并设计出最优跨域组播树问题的求解算法。针对现有求解方法对网络流量状态感知性能欠缺影响组播业务对QoS方面需求的满足,并且收敛速度慢难以适应网络状态高度动态变化的问题,本文设计和实现了一种基于多智能体深度强化学习的SDWN跨域组播路由方法(MA-CDMR)。首先,设计了组播组管理模块和多控制器之间的通信机制来实现不同域之间网络状态信息的传递和同步,有效管理跨域组播组成员的加入和离开;其次,在通过理论分析和证明最优跨域组播树包括最优的域间组播树和域内组播树两个部分的结论后,本文对每个控制器设计了一个智能体,并设计了这些多智能体之间的协作机制,以保证为跨域组播路由决策提供网络状态信息表示的一致性和有效性;然后,设计一种在线与离线相结合的多智能体强化学习训练方式,以减少对实时环境的依赖并加快多智能体收敛速度;最后,通过系列实验及其结果表明所提方法在不同网络链路信息状态下具有达到了很好的网络性能,平均瓶颈带宽相较于现有KMB、SCTF、DRL-M4MR和MADRL-MR方法分别提升了7.09%、46.01%、9.61%和10.11%;平均时延在与MADRL-MR方法表现相近的同时,相比KMB、SCTF和DRL-M4MR方法有明显提升,而丢包率和组播树平均长度等也均优于这些现有方法。本文工作源代码已提交至开源平台https://github.com/GuetYe/MA-CDMR。 展开更多
关键词 组播树 软件定义无线网络 跨域组播路由 多智能体 深度强化学习
在线阅读 下载PDF
基于深度强化学习的移动边缘计算安全传输策略研究 被引量:1
7
作者 王义君 李嘉欣 +2 位作者 闫志颖 吕婧莹 钱志鸿 《通信学报》 北大核心 2025年第4期272-281,共10页
在移动边缘计算中,任务卸载过程中会面临信息泄露和被窃听等安全问题。为了提高移动边缘计算系统的安全传输效率,提出了无人机辅助物理层安全传输策略。首先,构建了无人机(UAV)搭载的移动边缘计算系统,由I个用户设备、M架合法无人机(L-U... 在移动边缘计算中,任务卸载过程中会面临信息泄露和被窃听等安全问题。为了提高移动边缘计算系统的安全传输效率,提出了无人机辅助物理层安全传输策略。首先,构建了无人机(UAV)搭载的移动边缘计算系统,由I个用户设备、M架合法无人机(L-UAV)和N架窃听无人机(E-UAV)构成;其次,保证L-UAV在规定周期内完成卸载任务的同时,以通信系统安全传输效率最大化为目标,采用引入注意力机制的多智能体深度确定性策略梯度(A-MADDPG)算法进行问题求解与优化;最后,在保证卸载前提下实现用户的机密信息不被窃听者窃听和安全计算效率最大化,保障系统整体安全性。仿真结果表明,所提算法相较于其他基准算法展现了更佳性能,在安全传输效率方面表现优越。 展开更多
关键词 移动边缘计算 物理层安全 深度强化学习 无人机辅助卸载
在线阅读 下载PDF
基于深度强化学习的游戏智能引导算法 被引量:2
8
作者 白天 吕璐瑶 +1 位作者 李储 何加亮 《吉林大学学报(理学版)》 北大核心 2025年第1期91-98,共8页
针对传统游戏智能体算法存在模型输入维度大及训练时间长的问题,提出一种结合状态信息转换与奖励函数塑形技术的新型深度强化学习游戏智能引导算法.首先,利用Unity引擎提供的接口直接读取游戏后台信息,以有效压缩状态空间的维度,减少输... 针对传统游戏智能体算法存在模型输入维度大及训练时间长的问题,提出一种结合状态信息转换与奖励函数塑形技术的新型深度强化学习游戏智能引导算法.首先,利用Unity引擎提供的接口直接读取游戏后台信息,以有效压缩状态空间的维度,减少输入数据量;其次,通过精细化设计奖励机制,加速模型的收敛过程;最后,从主观定性和客观定量两方面对该算法模型与现有方法进行对比实验,实验结果表明,该算法不仅显著提高了模型的训练效率,还大幅度提高了智能体的性能. 展开更多
关键词 深度强化学习 游戏智能体 奖励函数塑形 近端策略优化算法
在线阅读 下载PDF
基于深度强化学习的IRS辅助认知无线电系统波束成形算法 被引量:1
9
作者 李国权 程涛 +2 位作者 郭永存 庞宇 林金朝 《电子与信息学报》 北大核心 2025年第3期657-665,共9页
为进一步提升多用户无线通信系统的频谱利用率,该文提出了一种基于深度强化学习的智能反射面(IRS)辅助认知无线电网络次用户和速率最大化算法。首先在考虑次基站最大发射功率约束、次基站对主用户的干扰容限约束以及IRS相移矩阵单位模... 为进一步提升多用户无线通信系统的频谱利用率,该文提出了一种基于深度强化学习的智能反射面(IRS)辅助认知无线电网络次用户和速率最大化算法。首先在考虑次基站最大发射功率约束、次基站对主用户的干扰容限约束以及IRS相移矩阵单位模量约束的情况下,建立一个联合优化次基站波束成形和IRS相移矩阵的资源分配模型;然后提出了一种基于深度确定性策略梯度的主被动波束成形算法,联合进行变量优化以最大化次用户和速率。仿真结果表明,所提算法相对于传统优化算法在和速率性能接近的情况下具有更低的时间复杂度。 展开更多
关键词 智能反射面 认知无线电 深度强化学习 波束成形
在线阅读 下载PDF
一种基于深度强化学习的多对多在轨服务优化调度方法
10
作者 夏红伟 张桀睿 +1 位作者 马广程 王常虹 《宇航学报》 北大核心 2025年第1期204-214,共11页
针对航天器多对多在轨服务的优化调度问题,提出一种基于深度强化学习的智能方法。首先,将航天器多对多在轨服务的优化调度问题建模为与轨道相关的车辆路径问题。随后,提出一种基于注意力机制的编码器-解码器神经网络,构建了随机策略,该... 针对航天器多对多在轨服务的优化调度问题,提出一种基于深度强化学习的智能方法。首先,将航天器多对多在轨服务的优化调度问题建模为与轨道相关的车辆路径问题。随后,提出一种基于注意力机制的编码器-解码器神经网络,构建了随机策略,该策略能够在给出问题实例的情况下生成解决方案。神经网络中,编码器生成图嵌入与节点嵌入,解码器基于嵌入逐步生成解决方案。其次,使用带有贪婪滚动基线的REINFORCE算法对神经网络进行训练。最后,大量试验结果说明了所提出方法的有效性与优越性。所提智能方法的优越性在于:能够近乎实时地给出调度问题的解;在大规模调度问题上的求解质量优于元启发式算法;在特定目标数目实例上训练的模型对不同目标数目的实例具有较好的泛化能力。 展开更多
关键词 在轨服务 优化调度 深度强化学习 注意力机制
在线阅读 下载PDF
基于深度强化学习的孤岛微电网二次频率控制
11
作者 王力 蒋宇翔 +2 位作者 曾祥君 赵斌 李均昊 《中国电力》 北大核心 2025年第5期176-188,共13页
随着分布式电源大量接入微电网,可再生能源发电波动性和系统随机扰动给孤岛微电网频率稳定和运行控制带来了严重威胁。为此,提出了基于深度强化学习的二次频率控制方法,分析孤岛微电网下垂控制特性,提出了基于深度Q网络的二次频率控制... 随着分布式电源大量接入微电网,可再生能源发电波动性和系统随机扰动给孤岛微电网频率稳定和运行控制带来了严重威胁。为此,提出了基于深度强化学习的二次频率控制方法,分析孤岛微电网下垂控制特性,提出了基于深度Q网络的二次频率控制器结构。将频率偏差作为状态输入变量,依次完成深度Q网络算法中状态空间、动作空间、奖励函数、神经网络和超参数的设计,其中奖励函数兼顾了频率恢复和各分布式电源功率分配的目标,实现各智能体动作选择一致性;通过离线学习训练生成深度强化学习二次频率控制器。在Matlab/Simulink中搭建孤岛微电网仿真模型,设置多场景源荷扰动验证控制器性能。结果表明,与传统PID控制和基于Q学习算法控制器相比,该控制方法能够快速实现更稳定的二次频率控制,并能自适应协调各分布式电源按自身容量进行功率分配,确保系统稳定运行。 展开更多
关键词 深度强化学习 孤岛微电网 下垂控制 深度Q网络 二次频率控制 功率分配
在线阅读 下载PDF
多智能体深度强化学习优化的机器人导纳控制
12
作者 李逃昌 李健璋 +1 位作者 侯利民 金海波 《电子测量与仪器学报》 北大核心 2025年第5期134-143,共10页
针对固定参数主动柔顺控制受机器人内部参数不确定等建模误差影响导致轨迹精度不高的问题,提出一种基于多智能体深度确定性策略梯度(MA-DDPG)的机器人自适应导纳控制方法。首先,基于机器人模型建立导纳控制器。其次,将深度确定性策略梯... 针对固定参数主动柔顺控制受机器人内部参数不确定等建模误差影响导致轨迹精度不高的问题,提出一种基于多智能体深度确定性策略梯度(MA-DDPG)的机器人自适应导纳控制方法。首先,基于机器人模型建立导纳控制器。其次,将深度确定性策略梯度(DDPG)算法与导纳控制相结合,设计了一种由DDPG智能体直接输出导纳参数的自适应导纳控制器。针对其收敛速度慢和控制效果不好的问题,在自适应导纳控制算法中引入多智能体思想,将每一个导纳控制参数作为一个智能体的输出,采用集中式训练分布式执行架构的MA-DDPG算法对导纳控制器参数进行协同优化。最后,通过对比深度强化学习仿真训练效果以及自适应导纳控制在期望轨迹上的受力实验效果,验证了所提方法的可行性与有效性。实验数据表明,与其他深度强化学习算法的自适应导纳控制相比,所提方法的仿真训练收敛速度提高了65.88%,轨迹精度提高了63.35%。 展开更多
关键词 机器人 深度强化学习 导纳控制
在线阅读 下载PDF
基于深度强化学习的无人机紫外光信息收集方法
13
作者 赵太飞 郭佳豪 +1 位作者 辛雨 王璐 《光子学报》 北大核心 2025年第1期43-58,共16页
针对电磁干扰环境下的无人机信息收集问题,使用深度强化学习算法实现了紫外光非直视通信收发仰角自适应调整的信息收集方法。建立了无人机的移动、通信、信息收集和能耗模型,以时间、能量和通信质量为目标函数,建立了多目标优化模型,使... 针对电磁干扰环境下的无人机信息收集问题,使用深度强化学习算法实现了紫外光非直视通信收发仰角自适应调整的信息收集方法。建立了无人机的移动、通信、信息收集和能耗模型,以时间、能量和通信质量为目标函数,建立了多目标优化模型,使用深度强化学习算法解决多目标优化问题。为了让无人机获得更优的飞行方向、飞行速度以及紫外光收发仰角的决策,设计了一套适合信息收集任务的奖励函数,并对经典的深度双Q网络算法加入双目标网络、熵正则化和优先经验回放等改进。仿真结果表明,改进的算法相比经典的深度双Q网络算法,在时间效率上至少提高了13%,能量消耗至少减少了14%。 展开更多
关键词 无人机 信息收集 紫外光非直视通信 深度强化学习 深度双Q网络
在线阅读 下载PDF
基于算子学习的多目标深度强化学习模型求解消防设施选址问题
14
作者 刘勇 刘宇轩 马良 《计算机应用研究》 北大核心 2025年第2期477-485,共9页
针对消防设施选址问题,构建考虑时效性、市民等待救援的焦急心理和建设成本的三目标消防设施选址模型,以实现更科学的消防设施布局。鉴于该问题的NP难特性,提出基于算子学习的多目标深度强化学习模型(multi-objective deep reinforcemen... 针对消防设施选址问题,构建考虑时效性、市民等待救援的焦急心理和建设成本的三目标消防设施选址模型,以实现更科学的消防设施布局。鉴于该问题的NP难特性,提出基于算子学习的多目标深度强化学习模型(multi-objective deep reinforcement learning,MDRL)。设计多种优化算子作为强化学习的动作空间,训练策略网络以选择最佳优化算子来改进解决方案。针对多目标问题,设计基于优势差异的方法(MDRL-AD)和基于支配性评估的方法(MDRL-DE)。采用四种规模的测试算例及实际案例进行数值实验,将MDRL和改进的NSGA-Ⅱ、MOPSO、L2I算法进行比较,并利用Hypervolume指标、Spacing指标、Ω指标、IGD指标对算法性能进行评估。实验结果表明,MDRL-AD方法更适用于求解小规模算例,MDRL-DE方法则在求解大规模和超大规模算例时相比其他算法优势明显。MDRL在非劣解集的收敛性和均匀性方面明显优于其他对比算法,为消防设施布局规划提供了一种有竞争力的解决方案。 展开更多
关键词 深度强化学习 算子学习 优化算子 多目标优化 消防设施选址问题
在线阅读 下载PDF
联合局部线性嵌入与深度强化学习的RIS-MISO下行和速率优化
15
作者 孙俊 杨俊龙 +2 位作者 杨青青 胡明志 吴紫仪 《电子与信息学报》 北大核心 2025年第7期2117-2126,共10页
智能反射面(RIS)因其能调节电磁波的相位和幅度,被视为下一代无线通信的关键技术而被广泛研究。在RIS辅助多输入单输出(MISO)的通信系统中,信道状态维度随用户数量的增加呈平方级增长,导致深度强化学习(DRL)智能体在高维状态空间下面临... 智能反射面(RIS)因其能调节电磁波的相位和幅度,被视为下一代无线通信的关键技术而被广泛研究。在RIS辅助多输入单输出(MISO)的通信系统中,信道状态维度随用户数量的增加呈平方级增长,导致深度强化学习(DRL)智能体在高维状态空间下面临训练开销大的挑战。针对此问题,该文提出一种基于局部线性嵌入(LLE)和软动作评论(SAC)的联合优化算法,通过随机搜索算法和LLE对信道状态进行降维,并将低维状态作为SAC算法的输入,联合优化基站波束成形与RIS相位偏移,最大化MISO系统的下行和速率。仿真结果表明,在用户数为40的场景下,所提算法在维持与SAC相当的和速率性能的同时,训练时间减少了18.3%,计算资源消耗降低了64.8%。且随着用户规模的扩大,算法的训练开销进一步下降,充分验证了其有效性。 展开更多
关键词 智能反射面 局部线性嵌入 深度强化学习 和速率 训练开销
在线阅读 下载PDF
基于VSG的风光水火储系统频率调节深度强化学习方法
16
作者 刘晓明 刘俊 +3 位作者 姚宏伟 赵誉 聂永欣 任柯政 《电力系统自动化》 北大核心 2025年第9期114-124,共11页
由于可再生能源发电固有的不确定性和低惯量特性,随着分布式能源(DER)的快速发展,电力系统正面临显著的系统频率动态恶化。为解决这一问题,使DER能够模拟传统同步发电机运行的虚拟同步发电机(VSG)技术已被开发并得到广泛关注。然而,现... 由于可再生能源发电固有的不确定性和低惯量特性,随着分布式能源(DER)的快速发展,电力系统正面临显著的系统频率动态恶化。为解决这一问题,使DER能够模拟传统同步发电机运行的虚拟同步发电机(VSG)技术已被开发并得到广泛关注。然而,现有研究主要集中于采用固定参数运行VSG以提供惯量支撑,而很少关注动态调整VSG以利用其快速响应特性来提升电力系统的频率响应性能。因此,文中提出一种基于深度强化学习的频率调节(DRL-FR)方法,该方法可自适应调整一、二次调频及VSG的动态参数。首先,构建频率调节模型,并将新能源电厂建模为可调VSG,将最优频率调节问题建模为马尔可夫决策过程。然后,构建DRL-FR控制器,其动作空间为一、二次调频动态参数,涵盖下垂控制、比例-积分-微分控制、机组参与系数及VSG可调参数。最后,开发了一种结合单调优势重加权模仿学习的近端策略优化算法,可结合历史运行数据及专家经验加速模型训练过程。在改造的IEEE 39节点系统中进行测试,验证了所提DRL-FR方法的有效性。 展开更多
关键词 深度强化学习 虚拟同步发电机 频率调节 模仿学习 近端策略优化
在线阅读 下载PDF
云边端场景下基于多智能体深度强化学习的边缘缓存策略
17
作者 王海艳 常博 骆健 《通信学报》 北大核心 2025年第6期153-167,共15页
云边端场景下,边缘缓存技术旨在通过促进边缘节点间的协同内容分发,减轻回程链路的流量负载并提升服务质量。考虑内容流行度的动态变化,提出了一种基于时间卷积网络的内容请求状态预测(TCNCRSP)模型。在此基础上,以最大化累积奖励为目标... 云边端场景下,边缘缓存技术旨在通过促进边缘节点间的协同内容分发,减轻回程链路的流量负载并提升服务质量。考虑内容流行度的动态变化,提出了一种基于时间卷积网络的内容请求状态预测(TCNCRSP)模型。在此基础上,以最大化累积奖励为目标,提出了一种基于多智能体深度强化学习算法的边缘缓存策略,通过在云端利用长短期记忆(LSTM)网络对各边缘节点的状态数据进行降维处理,生成低维全局状态,减少状态共享所需的通信成本。实验结果显示,所提方法显著提升了缓存命中率和服务质量,同时降低了系统开销。 展开更多
关键词 云边端协同 边缘缓存 内容流行度预测 时间卷积网络 深度强化学习
在线阅读 下载PDF
基于深度强化学习的四足机器人单腿越障轨迹规划
18
作者 李敏 张森 +5 位作者 曾祥光 王刚 张童伟 谢地杰 任文哲 张滔 《系统仿真学报》 北大核心 2025年第4期895-909,共15页
针对四足机器人在越障行走过程中存在关节振动、能耗高等问题,提出了一种基于深度强化学习SAC算法的四足机器人越障轨迹规划方法。基于机器人运动学和蒙特卡罗法分析了四足机器人单腿足端的运动空间;规划了一种复合七次多项式四足机器... 针对四足机器人在越障行走过程中存在关节振动、能耗高等问题,提出了一种基于深度强化学习SAC算法的四足机器人越障轨迹规划方法。基于机器人运动学和蒙特卡罗法分析了四足机器人单腿足端的运动空间;规划了一种复合七次多项式四足机器人越障运动轨迹;利用SAC算法训练并得到了四足机器人单腿在不同障碍物环境下的低能耗越障策略。仿真结果表明:复合七次多项式轨迹规划能有效减少四足机器人腿部在越障时产生的关节振动及足端接触力,在经过SAC算法训练后,机器人能够得到理想的轨迹规划参数,实现低能耗越障稳定行走。 展开更多
关键词 四足机器人 轨迹规划 深度强化学习 越障行走 关节能耗
在线阅读 下载PDF
基于深度强化学习算法的分布式光伏-EV互补系统智能调度
19
作者 陈宁 李法社 +3 位作者 王霜 张慧聪 唐存靖 倪梓皓 《高电压技术》 北大核心 2025年第3期1454-1463,共10页
针对分布式光伏与电动汽车(electric vehicle,EV)大规模接入电网将对电力系统造成冲击的问题,通过建立分布式光伏-EV互补调度模型,以平抑光伏并网波动、增加EV用户经济性为目标,考虑光伏出力的随机性、负荷功率波动、EV接入时间及电量... 针对分布式光伏与电动汽车(electric vehicle,EV)大规模接入电网将对电力系统造成冲击的问题,通过建立分布式光伏-EV互补调度模型,以平抑光伏并网波动、增加EV用户经济性为目标,考虑光伏出力的随机性、负荷功率波动、EV接入时间及电量随机性、实时电价、电池老化成本等因素,提出采用梯度随机扰动的改进型近端策略优化算法(gradient random perturbation-proximal policy optimization algorithm,GRP-PPO)进行求解,通过对模型目标函数的调整,得到基于不同优化目标的2种实时运行策略。通过算例可知,实时调度策略可有效地平抑并网点功率波动,调度效果较传统PPO算法提高了3.48%;策略一以用户的出行需求及平抑并网点功率波动为首要目标,能够保证用户的24h用车需求,同时并网点功率稳定率达到91.84%;策略二以用户经济效益为首要优化目标,全天参与调度的EV收益可达82.6元,可起到鼓励用户参与调度的目的。 展开更多
关键词 分布式光伏 电动汽车 V2G 深度强化学习 实时调度 近端策略优化
在线阅读 下载PDF
堆叠覆盖环境下的深度强化学习机械臂避障抓取方法
20
作者 禹鑫燚 周晨 +2 位作者 俞俊鑫 曹铭洲 欧林林 《高技术通讯》 北大核心 2025年第3期284-296,共13页
堆叠覆盖环境下的机械臂避障抓取是一个重要且有挑战性的任务。针对机械臂在堆叠环境下的避障抓取任务,本文提出了一种基于图像编码器和深度强化学习(deep reinforcement learning,DRL)的机械臂避障抓取方法Ec-DSAC(encoder and crop fo... 堆叠覆盖环境下的机械臂避障抓取是一个重要且有挑战性的任务。针对机械臂在堆叠环境下的避障抓取任务,本文提出了一种基于图像编码器和深度强化学习(deep reinforcement learning,DRL)的机械臂避障抓取方法Ec-DSAC(encoder and crop for discrete SAC)。首先设计结合YOLO(you only look once)v5和对比学习网络编码的图像编码器,能够编码关键特征和全局特征,实现像素信息至向量信息的降维。其次结合图像编码器和离散软演员-评价家(soft actor-critic,SAC)算法,设计离散动作空间和密集奖励函数约束并引导策略输出的学习方向,同时使用随机图像裁剪增加强化学习的样本效率。最后,提出了一种应用于深度强化学习预训练的二次行为克隆方法,增强了强化学习网络的学习能力并提高了控制策略的成功率。仿真实验中Ec-DSAC的避障抓取成功率稳定高于80.0%,验证其具有比现有方法更好的避障抓取性能。现实实验中避障抓取成功率为73.3%,验证其在现实堆叠覆盖环境下避障抓取的有效性。 展开更多
关键词 堆叠覆盖环境 避障抓取 图像编码器 深度强化学习 二次行为克隆
在线阅读 下载PDF
上一页 1 2 94 下一页 到第
使用帮助 返回顶部