期刊文献+
共找到85篇文章
< 1 2 5 >
每页显示 20 50 100
基于渐近式k-means聚类的多行动者确定性策略梯度算法
1
作者 刘全 刘晓松 +1 位作者 吴光军 刘禹含 《吉林大学学报(理学版)》 北大核心 2025年第3期885-894,共10页
针对深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法在一些大状态空间任务中存在学习效果不佳及波动较大等问题,提出一种基于渐近式k-means聚类算法的多行动者深度确定性策略梯度(multi-actor deep deterministic po... 针对深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法在一些大状态空间任务中存在学习效果不佳及波动较大等问题,提出一种基于渐近式k-means聚类算法的多行动者深度确定性策略梯度(multi-actor deep deterministic policy gradient based on progressive k-means clustering,MDDPG-PK-Means)算法.在训练过程中,对每一时间步下的状态进行动作选择时,根据k-means算法判别结果辅佐行动者网络的决策,同时随训练时间步的增加,逐渐增加k-means算法类簇中心的个数.将MDDPG-PK-Means算法应用于MuJoCo仿真平台上,实验结果表明,与DDPG等算法相比,MDDPG-PK-Means算法在大多数连续任务中都具有更好的效果. 展开更多
关键词 深度强化学习 确定性策略梯度算法 K-MEANS聚类 多行动者
在线阅读 下载PDF
基于深度确定性策略梯度算法的风光储系统联合调度策略 被引量:10
2
作者 张淑兴 马驰 +3 位作者 杨志学 王尧 吴昊 任洲洋 《中国电力》 CSCD 北大核心 2023年第2期68-76,共9页
针对风光储联合系统的调度问题,提出了一种基于深度强化学习的风光储系统联合调度模型。首先,以计划跟踪、弃风弃光以及储能运行成本最小为目标,建立了充分考虑风光储各个场站约束下的联合调度模型。然后,定义该调度模型在强化学习框架... 针对风光储联合系统的调度问题,提出了一种基于深度强化学习的风光储系统联合调度模型。首先,以计划跟踪、弃风弃光以及储能运行成本最小为目标,建立了充分考虑风光储各个场站约束下的联合调度模型。然后,定义该调度模型在强化学习框架下的系统状态变量、动作变量以及奖励函数等,引入了深度确定性策略梯度算法,利用其环境交互、策略探索的机制,学习风光储系统的联合调度策略,以实现对联合系统功率跟踪,减少弃风弃光以及储能充放电。最后,借用西北某地区风电、光伏、跟踪计划的历史数据对模型进行了训练和算例分析,结果表明所提方法可以较好地适应不同时期的风光变化,得到在给定风光下联合系统的调度策略。 展开更多
关键词 风光储联合系统 联合调度策略 确定性 深度强化学习 深度确定性策略梯度算法
在线阅读 下载PDF
基于改进深度确定性策略梯度算法的微电网能量优化调度 被引量:10
3
作者 李瑜 张占强 +1 位作者 孟克其劳 魏皓天 《电子测量技术》 北大核心 2023年第2期73-80,共8页
针对微电网中分布式发电设备存在输出不确定性和间歇性问题,以及传统的深度确定性策略梯度算法存在收敛速度慢、鲁棒性差、容易陷入局部最优的缺点。本文提出了一种基于优先经验回放的深度确定性策略梯度算法,以微电网系统运行成本最低... 针对微电网中分布式发电设备存在输出不确定性和间歇性问题,以及传统的深度确定性策略梯度算法存在收敛速度慢、鲁棒性差、容易陷入局部最优的缺点。本文提出了一种基于优先经验回放的深度确定性策略梯度算法,以微电网系统运行成本最低为目标,实现微电网的能量优化调度。首先,采用马尔可夫决策过程对微电网优化问题进行建模;其次,采用Sumtree结构的优先经验回放池提升样本利用效率,并且应用重要性采样来改善状态分布对收敛结果的影响。最后,本文利用真实的电力数据进行仿真验证,结果表明,提出的优化调度算法可以有效地学习到使微电网系统经济成本最低的运行策略,所提出的算法总运行时间比传统算法缩短了7.25%,运行成本降低了31.5%。 展开更多
关键词 优先经验回放 微电网能量优化调度 深度确定性策略梯度算法
在线阅读 下载PDF
基于深度确定性策略梯度的粒子群算法 被引量:6
4
作者 鲁华祥 尹世远 +2 位作者 龚国良 刘毅 陈刚 《电子科技大学学报》 EI CAS CSCD 北大核心 2021年第2期199-206,共8页
在传统的粒子群优化算法(PSO)中,所有粒子都遵循最初设定的一些参数进行自我探索,这种方案容易导致过早成熟,且易被困于局部最优点。针对以上问题,该文提出了一种基于深度确定性策略梯度的粒子群优化算法(DDPGPSO),通过构造神经网络分... 在传统的粒子群优化算法(PSO)中,所有粒子都遵循最初设定的一些参数进行自我探索,这种方案容易导致过早成熟,且易被困于局部最优点。针对以上问题,该文提出了一种基于深度确定性策略梯度的粒子群优化算法(DDPGPSO),通过构造神经网络分别实现了动作函数和动作价值函数,且利用神经网络可以动态地生成算法运行所需要的参数,降低了人工配置算法的难度。实验表明DDPGPSO相比9种同类算法在收敛速度和寻优精度上均有较大的提升。 展开更多
关键词 自适应惯性权值 收敛因子 深度确定性策略梯度算法 强化学习 群体智能 粒子群优化算法
在线阅读 下载PDF
基于TD3算法的光伏电站参与电力系统频率控制策略
5
作者 张建华 陶莹 赵思 《郑州大学学报(工学版)》 北大核心 2025年第3期42-49,共8页
针对光伏电力输出具有间歇性和随机性对维持电力系统频率稳定构成的挑战,提出了一种基于双延迟深度确定性策略梯度算法的快速频率调节方法,该方法无须依赖特定的机理模型,适用于解决与光伏发电相关的强不确定性问题。首先,构建了一个简... 针对光伏电力输出具有间歇性和随机性对维持电力系统频率稳定构成的挑战,提出了一种基于双延迟深度确定性策略梯度算法的快速频率调节方法,该方法无须依赖特定的机理模型,适用于解决与光伏发电相关的强不确定性问题。首先,构建了一个简化的光伏发电系统模型;其次,基于双延迟深度确定性策略梯度算法设计了一种新型频率控制器;最后,将所提控制策略与传统下垂控制、滑模控制及基于深度确定性策略梯度算法的控制策略进行了比较。结果表明:在分别施加负荷单次阶跃扰动和负荷连续阶跃扰动的两种场景中,基于所提控制策略的频率偏差均明显低于其他3种控制算法,时间乘绝对误差积分准则比性能最差的下垂控制分别减小了41.7%和31.8%,充分验证了所提控制策略在调频过程动态性能和稳态性能方面的优越性。 展开更多
关键词 光伏并网系统 一次调频 深度强化学习 双延迟深度确定性策略梯度算法 控制性能
在线阅读 下载PDF
基于改进DDPG算法的无人船自主避碰决策方法
6
作者 关巍 郝淑慧 +1 位作者 崔哲闻 王淼淼 《中国舰船研究》 北大核心 2025年第1期172-180,共9页
[目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收... [目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收敛性。基于船舶领域和《国际海上避碰规则》(COLREGs),设置会遇情况判定模型和一组新定义的奖励函数,并考虑了紧迫危险以应对他船不遵守规则的情况。为验证所提方法的有效性,在两船和多船会遇局面下进行仿真实验。[结果]结果表明,改进的DDPG算法相比于传统DDPG算法在收敛速度上提升约28.8%,[结论]训练好的自主避碰模型可以使无人船在遵守COLREGs的同时实现自主决策和导航,为实现更加安全、高效的海上交通智能化决策提供参考。 展开更多
关键词 无人船 深度确定性策略梯度算法 自主避碰决策 优先经验回放 国际海上避碰规则 避碰
在线阅读 下载PDF
基于深度强化学习的自适应不确定性经济调度 被引量:77
7
作者 彭刘阳 孙元章 +2 位作者 徐箭 廖思阳 杨丽 《电力系统自动化》 EI CSCD 北大核心 2020年第9期33-42,共10页
当风电、光伏等间歇性电源大规模接入电力系统时,为应对其出力的不确定性,电力系统经济调度模型需建立在对不确定性建模的基础上,建模精确度将直接影响调度结果的精确度。但当系统同时包含风电、光伏和负荷复杂的不确定性时,对系统整体... 当风电、光伏等间歇性电源大规模接入电力系统时,为应对其出力的不确定性,电力系统经济调度模型需建立在对不确定性建模的基础上,建模精确度将直接影响调度结果的精确度。但当系统同时包含风电、光伏和负荷复杂的不确定性时,对系统整体不确定性进行精确建模显得尤为困难。针对这一问题,引入深度强化学习中深度确定性策略梯度算法,避免对复杂的不确定性进行建模,利用其与环境交互、根据反馈学习改进策略的机制,自适应不确定性的变化。为确保算法适用性,进行了模型泛化方法的设计,针对算法稳定性问题进行了感知-学习比例调整和改进经验回放的机制设计。算例结果表明,所提方法能在自适应系统不确定性的基础上,实现任意场景下的电力系统动态经济调度。 展开更多
关键词 间歇性电源 确定性 动态经济调度 深度强化学习 深度确定性策略梯度算法
在线阅读 下载PDF
基于深度强化学习的电力系统紧急切机稳控策略生成方法 被引量:3
8
作者 高琴 徐光虎 +3 位作者 夏尚学 杨欢欢 赵青春 黄河 《电力科学与技术学报》 北大核心 2025年第1期39-46,共8页
电力系统快速发展的同时也改变着电力系统的结构,使得系统稳定机理变得更加复杂。为解决新能源电力系统存在的功角稳定问题,提出基于深度强化学习的电力系统紧急切机稳控策略生成方法。首先,归纳并提出电力系统紧急控制切机动作策略以... 电力系统快速发展的同时也改变着电力系统的结构,使得系统稳定机理变得更加复杂。为解决新能源电力系统存在的功角稳定问题,提出基于深度强化学习的电力系统紧急切机稳控策略生成方法。首先,归纳并提出电力系统紧急控制切机动作策略以及涉及的安全约束,并将电力系统稳控模型转换为马尔科夫决策过程,再采用特征评估与斯皮尔曼(Spearman)等级相关系数方法筛选出最典型的特征数据;随后,为提高稳控策略智能体的训练效率,提出基于深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法的稳控策略训练框架;最后,在IEEE 39节点系统和某实际电网中进行测试验证。研究结果显示,所提方法能够根据系统的运行状态和对故障的响应,自动调整生成切机稳控策略,在决策效果和效率方面都表现出更好的性能。 展开更多
关键词 新能源电力系统 稳控策略 强化学习 深度确定性策略梯度算法 马尔科夫模型
在线阅读 下载PDF
考虑可变旋转参数的机器人多轴孔装配强化学习策略 被引量:2
9
作者 鄢智超 周勇 +1 位作者 胡楷雄 李卫东 《计算机集成制造系统》 北大核心 2025年第3期815-827,共13页
针对目前机器人多轴孔装配学习策略严重依赖人工示教数据,导致训练效率低和场景适应性差等问题,提出一种考虑可变旋转参数的机器人多轴孔装配强化学习策略。首先,提出一种可变旋转参数的姿态调整模型,据此采集多轴孔接触力学信息与姿态... 针对目前机器人多轴孔装配学习策略严重依赖人工示教数据,导致训练效率低和场景适应性差等问题,提出一种考虑可变旋转参数的机器人多轴孔装配强化学习策略。首先,提出一种可变旋转参数的姿态调整模型,据此采集多轴孔接触力学信息与姿态调整动作的对应关系数据,以此作为装配技能的预训练学习数据。进而,提出一种改进深度确定性策略梯度(DDPG)强化学习算法,通过多因素稀疏奖励函数对装配动作进行合适的奖励评价以提高学习效率和成功率。最后,在仿真和实验平台上进行了多轴孔电子元器件装配的案例研究,结果表明,所提方法具有良好的场景适应性,相对经典强化学习方法能有效提高装配的学习效率和成功率,同时明显减小了装配接触力/力矩。 展开更多
关键词 协作机器人 多轴孔装配 姿态调整模型 改进深度确定性策略梯度算法
在线阅读 下载PDF
基于改进深度强化学习算法的自动电压调节器控制 被引量:1
10
作者 阮柏松 刘利 +3 位作者 顾阳 刘琦 王涵 赵晶晶 《电力系统及其自动化学报》 北大核心 2025年第6期150-158,共9页
为适应大容量同步发电机组并网点母线电压波动增加对自动电压调节器(automatic voltage regulator,AVR)系统响应能力的更高要求,提出一种基于含探索网络的双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient wi... 为适应大容量同步发电机组并网点母线电压波动增加对自动电压调节器(automatic voltage regulator,AVR)系统响应能力的更高要求,提出一种基于含探索网络的双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient with Explorer network,TD3EN)算法的同步发电机励磁电压控制方法。首先,通过传递函数对同步发电机励磁调压子系统进行建模;然后建立TD3EN算法探索网络、动作网络和评价网络,并设置相应参数;接着利用TD3EN算法训练智能体,通过探索网络探索动作空间,并根据评价网络更新动作网络参数,使其为AVR提供控制信号;将训练完成的智能体接入AVR系统,实现对发电机机端电压的控制。仿真结果表明,所提方法提高了AVR系统响应调节指令和应对电压暂降的能力。 展开更多
关键词 双延迟深度确定性策略梯度算法 探索网络 深度强化学习 同步发电机 自动电压调节器
在线阅读 下载PDF
基于变分图自编码器增强的配电通信一体化网络跨域路由算法
11
作者 韩雨阳 于洁潇 +1 位作者 卢和平 杨挺 《电网技术》 北大核心 2025年第10期4267-4276,I0071-I0072,共12页
配网侧分布式源储荷资源的高比例接入要求更高效的通信通道,以实现其可观可控。但目前配电通信骨干网和接入网在网络结构等方面存在显著差异,且未形成统一的资源管理策略,引起跨网传输时延高、资源利用不充分的难题。为此,文章构建了一... 配网侧分布式源储荷资源的高比例接入要求更高效的通信通道,以实现其可观可控。但目前配电通信骨干网和接入网在网络结构等方面存在显著差异,且未形成统一的资源管理策略,引起跨网传输时延高、资源利用不充分的难题。为此,文章构建了一种基于多控制器软件定义网络(software-defined network,SDN)的跨域通信架构,实现对骨干网和接入网资源的统一管理,形成配电通信一体化网络(distribution communication integration network,DCIN)。在此基础上,提出一种面向DCIN的跨域路由算法(DCIN cross-domain routing algorithm,DCRA),采用异构多智能体深度确定性策略梯度(heterogeneous-agent deep deterministic policy gradient,HADDPG)算法和变分图自编码器(variational graph autoencoders,VGAE)优化跨域路由决策,以多约束无环K最短路算法保障域内路由服务质量,从而构建出完整的DCIN路由方案。仿真结果表明,与现有方法相比,所提算法将平均端到端时延降低了至少10.92%,在丢包率、吞吐量和服务中断率等指标上均有较好表现,验证了其在提升跨域资源利用效率方面的卓越成效。 展开更多
关键词 配电通信一体化网络 跨域路由优化 变分图自编码器 异构多智能体深度确定性策略梯度算法
在线阅读 下载PDF
航空混合动力系统能量管理策略研究综述 被引量:1
12
作者 张丁予 沈挺 《航空发动机》 北大核心 2025年第1期12-20,共9页
能量管理策略作为航空混合动力系统的顶层控制,用于对混合动力系统不同动力源进行能量分流,是保证系统高效运行的基础。详细论述了各类航空混合动力系统能量管理策略,系统总结了基于规则、优化和智能3类能量管理策略的特点和研究现状。... 能量管理策略作为航空混合动力系统的顶层控制,用于对混合动力系统不同动力源进行能量分流,是保证系统高效运行的基础。详细论述了各类航空混合动力系统能量管理策略,系统总结了基于规则、优化和智能3类能量管理策略的特点和研究现状。通过阐述强化学习原理,分析了深度Q网络算法和深度确定性策略梯度算法的奖励原理、神经网络更新原理、以及各自优缺点及适用场景,并提出基于规则类能量管理策略对于专家经验依赖性较高等缺陷,可以通过将其与基于智能算法内部创新融合进行缓解的措施。在此基础上,展望了能量管理策略的未来发展趋势为智能内部算法、智能与其他类型算法的融合创新等,可以为后续航空混动系统能量管理策略研究提供一定的参考。 展开更多
关键词 能量管理策略 深度Q网络算法 深度确定性策略梯度算法 强化学习 航空混合动力系统
在线阅读 下载PDF
基于多智能体算法的多微电网-配电网分层协同调度策略 被引量:42
13
作者 陈池瑶 苗世洪 +3 位作者 姚福星 王廷涛 王佳旭 魏文荣 《电力系统自动化》 EI CSCD 北大核心 2023年第10期57-65,共9页
近年来,作为消纳可再生能源的有效方式之一,微电网在新型电力系统中扮演了愈来愈重要的角色,取得了显著的发展。但微电网的大量接入,改变了传统配电网的单级调度模式,使得调度过程中所面临的计算和通信任务日益繁重,而现行调度策略难以... 近年来,作为消纳可再生能源的有效方式之一,微电网在新型电力系统中扮演了愈来愈重要的角色,取得了显著的发展。但微电网的大量接入,改变了传统配电网的单级调度模式,使得调度过程中所面临的计算和通信任务日益繁重,而现行调度策略难以兼顾配电网运营商及微电网等多主体的利益诉求,也难以满足调度过程的计算高效性与通信私密性要求。对此,提出了一种基于多智能体算法的多微电网-配电网分层协同调度策略。首先,考虑配电网运营商与微电网在电力市场运行中的主从关系,构建了基于双层Stackelberg博弈的多微电网-配电网电力交易模型;然后,将多微电网-配电网协同调度表述为马尔可夫决策过程,采用基于数据驱动的多智能体深度策略性梯度算法求解Stackelberg均衡;最后,基于改进IEEE 33节点系统开展算例分析,验证了所提模型及算法的有效性。 展开更多
关键词 多微电网 配电网 STACKELBERG博弈 多智能体 深度确定性策略梯度算法 协同调度
在线阅读 下载PDF
基于遗传算法优化的深度强化学习-PI空气舵伺服系统控制策略 被引量:5
14
作者 洪子祺 许文波 +2 位作者 吕晨 欧阳权 王志胜 《机电工程》 CAS 北大核心 2023年第7期1071-1078,共8页
针对传统比例积分控制难以选定控制性能更好参数的问题,以空气舵伺服系统为研究对象,提出了一种基于遗传算法优化的强化学习-PI的控制方法。首先,建立了空气舵伺服系统的数学模型;然后,采用遗传算法优化了PI控制器的初始参数;采用深度... 针对传统比例积分控制难以选定控制性能更好参数的问题,以空气舵伺服系统为研究对象,提出了一种基于遗传算法优化的强化学习-PI的控制方法。首先,建立了空气舵伺服系统的数学模型;然后,采用遗传算法优化了PI控制器的初始参数;采用深度确定性策略梯度算法对当前PI控制器进行了实时整定,从而实现了对空气舵伺服系统进行位置指令控制的功能;最后,在Simulink中通过仿真分析,对所采用的方法应用于空气舵伺服系统的效果进行了验证。研究结果表明:改进的算法在参数摄动时,具备一定的在线稳定性;在空载情况下,所需要的调节时间要小于遗传算法-PI、DDPG-PI与传统PI算法,至少缩短了20%;同时,在负载情况下,相比其他3种方法,改进算法的波动幅值与负载结束后回到稳态时间至少缩短了15%,证明了所使用方法在空气舵伺服系统里的有效性。 展开更多
关键词 伺服系统 比例积分(PI)控制器 遗传算法 深度确定性策略梯度算法 参数优化 SIMULINK
在线阅读 下载PDF
基于扰动流体与TD3的无人机路径规划算法 被引量:4
15
作者 陈康雄 刘磊 《电光与控制》 CSCD 北大核心 2024年第1期57-62,共6页
针对双延迟深度确定性策略梯度(TD3)算法存在的动作选取随机性低的问题,在TD3算法中依正态分布进行动作选取,并依据扰动流体路径规划方法在路径平滑度上较高的优势,提出一种基于扰动流体与TD3算法的无人机路径规划框架,将其用于解决动... 针对双延迟深度确定性策略梯度(TD3)算法存在的动作选取随机性低的问题,在TD3算法中依正态分布进行动作选取,并依据扰动流体路径规划方法在路径平滑度上较高的优势,提出一种基于扰动流体与TD3算法的无人机路径规划框架,将其用于解决动态未知环境下的无人机路径规划问题,实现了无人机路径规划方案的快速收敛。仿真结果表明,对算法的改进可大幅提升网络训练效率,且能在保证避障实时性的前提下,满足航迹质量需求,为路径规划任务中应用深度强化学习提供了新思路。 展开更多
关键词 无人机 路径规划 双延迟深度确定性策略梯度算法 深度强化学习 扰动流体动态系统
在线阅读 下载PDF
基于MADDPG算法的匝道合流区多车协同控制 被引量:1
16
作者 蔡田茂 孔伟伟 +3 位作者 罗禹贡 石佳 姬鹏霄 李聪民 《汽车安全与节能学报》 CSCD 北大核心 2024年第6期923-933,共11页
为了保障匝道合流区的安全高效通行,提出了一种基于多智能体强化学习算法的多车协同控制方法。以提升系统计算效率为目标,设计了基于多智能体确定性策略梯度算法(MADDPG)的分布式训练框架;针对智能体模型难以应对连续车流场景的问题,通... 为了保障匝道合流区的安全高效通行,提出了一种基于多智能体强化学习算法的多车协同控制方法。以提升系统计算效率为目标,设计了基于多智能体确定性策略梯度算法(MADDPG)的分布式训练框架;针对智能体模型难以应对连续车流场景的问题,通过构建相对静止环境,改进策略更新梯度,保障智能体面向连续车流环境的平稳性;拆分匝道合流区场景为准备区和汇入区,分别依据两区域控制目标设计了状态、动作空间及奖励函数。结果表明:在不同交通流量下,与基于规则的方法相比,该方法通行合流区的总延误时间平均缩短25.46%;与全局优化方法相比,延误时间相差8.47%,但控制时长上不会随车辆数量增加而增长。该文所提出匝道合流区多车协同控制方法能够更好地兼顾通行效率提升与系统实时性。 展开更多
关键词 多智能体确定性策略梯度算法(MADDPG) 多智能体强化学习 多车协同控制 匝道合流
在线阅读 下载PDF
基于深度强化学习的梯级水蓄风光互补系统优化调度策略研究 被引量:13
17
作者 刘建行 刘方 《广东电力》 北大核心 2024年第5期10-22,共13页
对常规水电站进行抽水蓄能功能重塑,使其由“电源供应者”逐步转为“电源供应者+‘电池’调节者”,是解决大规模灵活性资源需求的重要技术手段。以梯级水蓄风光互补系统(cascade hydropower-pumping-storage-wind-photovoltaic multi-en... 对常规水电站进行抽水蓄能功能重塑,使其由“电源供应者”逐步转为“电源供应者+‘电池’调节者”,是解决大规模灵活性资源需求的重要技术手段。以梯级水蓄风光互补系统(cascade hydropower-pumping-storage-wind-photovoltaic multi-energy complementary system,CHPMCS)为研究对象,首先针对其发电抽蓄双向运行工况灵活转换和互补消纳特征,以系统发电效益最大为目标建立短期优化运行模型;其次,考虑CHPMCS出力连续可调的特点,提出将优化调度问题转换为马尔可夫决策过程,从而将多约束优化问题转换为无约束深度强化学习问题;然后,针对深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法训练效率低、易陷入局部最优等缺陷,采用改进DDPG算法对优化调度决策过程进行求解。最后,通过算例验证所提模型和算法的有效性。结果表明:CHPMCS通过水电功能重塑,有效提升了灵活性和调节能力,可以提高新能源的消纳能力和水资源的利用率,并通过“低储高发”提高系统发电效益。 展开更多
关键词 梯级水蓄风光互补系统 优化调度 新能源消纳 深度强化学习 改进深度确定性策略梯度算法
在线阅读 下载PDF
基于改进TD3的RIS-无人机通信系统能效优化
18
作者 王翊 邓毓 +3 位作者 许耀华 蒋芳 江福林 胡艳军 《西安电子科技大学学报》 北大核心 2025年第4期226-234,共9页
考虑到可重构智能表面(RIS)辅助的无人机(UAV)通信系统中存在多个移动用户的情况,研究了UAV的飞行能耗对系统能效的影响,通过联合优化UAV轨迹与主动波束赋形以及RIS相移设计以提升系统能效。由于目标函数是非凸的且优化变量耦合,传统算... 考虑到可重构智能表面(RIS)辅助的无人机(UAV)通信系统中存在多个移动用户的情况,研究了UAV的飞行能耗对系统能效的影响,通过联合优化UAV轨迹与主动波束赋形以及RIS相移设计以提升系统能效。由于目标函数是非凸的且优化变量耦合,传统算法难以直接求解,提出一种基于双延迟深度确定性策略梯度(TTD3)的高斯分布双延迟深度确定性策略梯度算法(GD-TD3),通过联合优化UAV轨迹与主动波束赋形以及RIS被动波束赋形以提升系统总数据速率和系统长期能效。所提算法通过改进双智能体框架中的原始网络结构,同时对多个用户移动性建模,分别优化了系统中的UAV轨迹以及UAV与RIS的主/被动波束赋形。仿真结果表明,相较于其他算法,GD-TD3算法在系统能效提升方面表现更好,在收敛速度和收敛稳定性方面都有一定提升。 展开更多
关键词 可重构智能表面 无人机通信 轨迹优化 双延迟深度确定性策略梯度算法
在线阅读 下载PDF
基于深度强化学习的停机位分配
19
作者 向征 吴秋玥 +1 位作者 储同 岳伊杨 《科学技术与工程》 北大核心 2025年第16期6977-6984,共8页
针对停机位分配问题展开系统研究,目标是最小化远机位分配数量以及近机位空闲时间,针对其多目标多约束特性,提出以最小远机位分配数量和最小近机位空闲时间为目标的多目标数学模型,该模型考虑了航班进出港实际时间、机型类别及停机位间... 针对停机位分配问题展开系统研究,目标是最小化远机位分配数量以及近机位空闲时间,针对其多目标多约束特性,提出以最小远机位分配数量和最小近机位空闲时间为目标的多目标数学模型,该模型考虑了航班进出港实际时间、机型类别及停机位间相互关系等参数。结合深度强化学习方法,特别是深度确定性策略梯度算法(deep deterministic policy gradient,DDPG),对停机位分配过程进行优化。为提升算法的寻优能力与性能,设计了改进后的DDPG算法,融入优先级经验回放和多策略融合探索机制。通过对比实验,表明改进后的算法更优,显著减少了最小远机位分配数量并优化了近机位空闲时间,且收敛更快、全局寻优能力更强,充分证实了其有效性。 展开更多
关键词 停机位分配 深度学习 强化学习 深度确定性策略梯度算法(DDPG)
在线阅读 下载PDF
计及氢能多元需求的工业园区综合能源系统经济低碳运行 被引量:2
20
作者 杨家辉 闫庆友 郭红珍 《广东电力》 北大核心 2025年第1期51-62,共12页
针对日益增长且多元的氢能需求,提出一种计及氢能多元需求的工业园区综合能源系统经济低碳运行策略。首先探究工业园区中氢能需求的不同来源以及各类氢能需求用量与时间特性的差异,并建立工业园区储能系统模型;其次,构建工业园区综合能... 针对日益增长且多元的氢能需求,提出一种计及氢能多元需求的工业园区综合能源系统经济低碳运行策略。首先探究工业园区中氢能需求的不同来源以及各类氢能需求用量与时间特性的差异,并建立工业园区储能系统模型;其次,构建工业园区综合能源系统双层优化模型,并利用深度确定性策略梯度算法(deep deterministic policy gradient,DDPG)进行求解;最后,选取某地工业园区进行算例分析,比较3种场景下的运行结果。结果表明,在引入代理商调整新能源汽车充能负荷并配置储能系统后,工业园区的购电成本降低了15.8%,综合能源系统运营商的收益提高了6.85%,同时工业园区的碳排放量降低了3.99%。 展开更多
关键词 氢能多元需求 园区综合能源系统 双层优化模型 深度确定性策略梯度算法 新能源汽车
在线阅读 下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部