期刊文献+
共找到115篇文章
< 1 2 6 >
每页显示 20 50 100
基于改进双延迟深度确定性策略梯度算法的电网有功安全校正控制 被引量:16
1
作者 顾雪平 刘彤 +2 位作者 李少岩 王铁强 杨晓东 《电工技术学报》 EI CSCD 北大核心 2023年第8期2162-2177,共16页
新型电力系统中,由于源荷不确定性的影响,发生线路过载事故的风险增大,传统的有功安全校正方法无法有效兼顾计算速度及效果等。基于此,该文提出一种基于改进双延迟深度确定性策略梯度算法的电网有功安全校正控制方法。首先,在满足系统... 新型电力系统中,由于源荷不确定性的影响,发生线路过载事故的风险增大,传统的有功安全校正方法无法有效兼顾计算速度及效果等。基于此,该文提出一种基于改进双延迟深度确定性策略梯度算法的电网有功安全校正控制方法。首先,在满足系统静态安全约束条件下,以可调元件出力调整量最小且保证系统整体运行安全性最高为目标,建立有功安全校正控制模型。其次,构建有功安全校正的深度强化学习框架,定义计及目标与约束的奖励函数、反映电力系统运行的观测状态、可改变系统状态的调节动作以及基于改进双延迟深度确定性策略梯度算法的智能体。最后,构造考虑源荷不确定性的历史系统过载场景,借助深度强化学习模型对智能体进行持续交互训练以获得良好的决策效果;并且进行在线应用,计及源荷未来可能的取值,快速得到最优的元件调整方案,消除过载线路。IEEE 39节点系统和IEEE 118节点系统算例结果表明,所提方法能够有效消除电力系统中的线路过载且避免短时间内再次越限,在计算速度、校正效果等方面,与传统方法相比具有明显的优势。 展开更多
关键词 新型电力系统 有功安全校正 深度强化学习 改进延迟深度确定性策略 最优调整方案
在线阅读 下载PDF
采用双经验回放池的噪声流双延迟深度确定性策略梯度算法
2
作者 王垚儒 李俊 《武汉科技大学学报》 CAS 北大核心 2020年第2期147-154,共8页
为了进一步提高双延迟深度确定性策略梯度算法(TD3)的网络探索性能和收敛速度,提出一种采用基于多步优先和重抽样优选机制的双经验回放池的噪声流TD3算法。该算法在策略网络中的每一层添加噪声流以增加参数的随机性,并引入多步优先经验... 为了进一步提高双延迟深度确定性策略梯度算法(TD3)的网络探索性能和收敛速度,提出一种采用基于多步优先和重抽样优选机制的双经验回放池的噪声流TD3算法。该算法在策略网络中的每一层添加噪声流以增加参数的随机性,并引入多步优先经验回放池,将多个连续样本组成一个基础单元进行存储,训练时通过多步截断双Q处理实现对值函数的有效逼近,同时增加一个经验回放池采用重抽样优选机制来存储学习价值更大的样本,双经验回放池的设置可弥补样本多样性不足的问题。在OpenAI Gym平台的Walker2d-v2场景中进行仿真实验,结果表明,与对比算法相比,本文算法获得的回报值有明显改善,网络收敛速度也大大加快。 展开更多
关键词 深度确定性策略梯度 TD3算法 深度强化学习 噪声流 多步截断Q学习 经验回放池
在线阅读 下载PDF
基于双延迟深度确定性策略梯度的受电弓主动控制 被引量:2
3
作者 吴延波 韩志伟 +2 位作者 王惠 刘志刚 张雨婧 《电工技术学报》 EI CSCD 北大核心 2024年第14期4547-4556,共10页
弓网系统耦合性能对于高速列车受流质量起着至关重要的作用,提高弓网耦合性能,一种有效的方法是针对受电弓进行主动控制调节,特别是在低速线路提速及列车多线路混跑时,主动控制可通过提高弓网自适应适配性,有效降低线路改造成本并提升... 弓网系统耦合性能对于高速列车受流质量起着至关重要的作用,提高弓网耦合性能,一种有效的方法是针对受电弓进行主动控制调节,特别是在低速线路提速及列车多线路混跑时,主动控制可通过提高弓网自适应适配性,有效降低线路改造成本并提升受流质量。针对受电弓主动控制问题,该文提出一种基于双延迟深度确定性策略梯度(TD3)的深度强化学习受电弓主动控制算法。通过建立弓网耦合模型实现深度强化学习系统环境模块,利用TD3作为受电弓行为控制策略,最终通过对控制器模型训练实现有效的受电弓控制策略。实验结果表明,运用该文方法可有效提升低速线路列车高速运行时弓网耦合性能及受电弓在多线路运行时的适应性,为铁路线路提速及列车跨线路运行提供新的思路。 展开更多
关键词 低速线路 混跑 延迟深度确定性策略梯度(TD3) 受电弓主动控制
在线阅读 下载PDF
基于渐近式k-means聚类的多行动者确定性策略梯度算法
4
作者 刘全 刘晓松 +1 位作者 吴光军 刘禹含 《吉林大学学报(理学版)》 北大核心 2025年第3期885-894,共10页
针对深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法在一些大状态空间任务中存在学习效果不佳及波动较大等问题,提出一种基于渐近式k-means聚类算法的多行动者深度确定性策略梯度(multi-actor deep deterministic po... 针对深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法在一些大状态空间任务中存在学习效果不佳及波动较大等问题,提出一种基于渐近式k-means聚类算法的多行动者深度确定性策略梯度(multi-actor deep deterministic policy gradient based on progressive k-means clustering,MDDPG-PK-Means)算法.在训练过程中,对每一时间步下的状态进行动作选择时,根据k-means算法判别结果辅佐行动者网络的决策,同时随训练时间步的增加,逐渐增加k-means算法类簇中心的个数.将MDDPG-PK-Means算法应用于MuJoCo仿真平台上,实验结果表明,与DDPG等算法相比,MDDPG-PK-Means算法在大多数连续任务中都具有更好的效果. 展开更多
关键词 深度强化学习 确定性策略梯度算法 K-MEANS聚类 多行动者
在线阅读 下载PDF
基于乐观探索的双延迟深度确定性策略梯度 被引量:1
5
作者 王浩宇 张衡波 +1 位作者 程玉虎 王雪松 《南京理工大学学报》 CAS CSCD 北大核心 2024年第3期300-309,共10页
双延迟深度确定性策略梯度是深度强化学习的一个主流算法,是一种无模型强化学习,已成功应用于具有挑战性的连续控制任务中。然而,当环境中奖励稀疏或者状态空间较大时,双延迟深度确定性策略梯度的样本效率较差,环境探索能力较弱。针对... 双延迟深度确定性策略梯度是深度强化学习的一个主流算法,是一种无模型强化学习,已成功应用于具有挑战性的连续控制任务中。然而,当环境中奖励稀疏或者状态空间较大时,双延迟深度确定性策略梯度的样本效率较差,环境探索能力较弱。针对通过双Q值函数的下界确定目标函数带来的低效探索问题,提出一种基于乐观探索的双延迟深度确定性策略梯度(TD3-OE)。首先,从双Q值函数出发,分析取下界会使得探索具有一定的悲观性;然后,利用高斯函数和分段函数分别对双Q值函数进行拟合;最后,利用拟合Q值函数和目标策略构造出探索策略,指导智能体在环境中进行探索。探索策略能够避免智能体学习到次优策略,从而有效解决低效探索的问题。该文在基于MuJoCo物理引擎的控制平台上将所提算法与基准算法进行试验对比,验证了所提算法的有效性。试验结果表明:所提算法在奖励、稳定性和学习速度等指标上均达到或超过其他基础强化学习算法。 展开更多
关键词 深度强化学习 延迟深度确定性策略梯度 探索策略 乐观探索
在线阅读 下载PDF
基于改进双延迟深度确定性策略梯度法的无人机反追击机动决策 被引量:11
6
作者 郭万春 解武杰 +1 位作者 尹晖 董文瀚 《空军工程大学学报(自然科学版)》 CSCD 北大核心 2021年第4期15-21,共7页
针对近距空战下的自主机动反追击问题,建立了无人机反追击马尔科夫(Markov)决策过程模型;在此基础上,提出了一种采用深度强化学习的无人机反追击自主机动决策方法。新方法基于经验回放区重构,改进了双延迟深度确定性策略梯度(TD3)算法,... 针对近距空战下的自主机动反追击问题,建立了无人机反追击马尔科夫(Markov)决策过程模型;在此基础上,提出了一种采用深度强化学习的无人机反追击自主机动决策方法。新方法基于经验回放区重构,改进了双延迟深度确定性策略梯度(TD3)算法,通过拟合策略函数与状态动作值函数,生成最优策略网络。仿真实验表明,在随机初始位置/姿态条件下,与采用纯追踪法的无人机对抗,该方法训练的智能无人机胜率超过93%;与传统的TD3、深度确定性策略梯度(DDPG)算法相比,该方法收敛性更快、稳定性更高。 展开更多
关键词 深度强化学习 近距空战 无人机 延迟深度确定性策略梯度
在线阅读 下载PDF
基于双评论家的多智能体深度确定性策略梯度方法 被引量:5
7
作者 丁世飞 杜威 +2 位作者 郭丽丽 张健 徐晓 《计算机研究与发展》 EI CSCD 北大核心 2023年第10期2394-2404,共11页
在现实世界的复杂多智能体环境中,任务的完成通常需要多个智能体之间的相互协作,这促使各种多智能体强化学习方法不断涌现.动作价值函数估计偏差是单智能体强化学习领域中备受关注的一个重要问题,而在多智能体环境中却鲜有研究.针对这... 在现实世界的复杂多智能体环境中,任务的完成通常需要多个智能体之间的相互协作,这促使各种多智能体强化学习方法不断涌现.动作价值函数估计偏差是单智能体强化学习领域中备受关注的一个重要问题,而在多智能体环境中却鲜有研究.针对这一问题,分别从理论和实验上证明了多智能体深度确定性策略梯度方法存在价值函数被高估.提出基于双评论家的多智能体深度确定性策略梯度(multiagent deep deterministic policy gradient method based on double critics,MADDPG-DC)方法,通过在双评论家网络上的最小值操作来避免价值被高估,进一步促进智能体学得最优的策略.此外,延迟行动者网络更新,保证行动者网络策略更新的效率和稳定性,提高策略学习和更新的质量.在多智能体粒子环境和交通信号控制环境上的实验结果证明了所提方法的可行性和优越性. 展开更多
关键词 强化学习 价值估计 评论家 交通信号控制 多智能体深度确定性策略梯度
在线阅读 下载PDF
基于深度确定性策略梯度的粒子群算法 被引量:6
8
作者 鲁华祥 尹世远 +2 位作者 龚国良 刘毅 陈刚 《电子科技大学学报》 EI CAS CSCD 北大核心 2021年第2期199-206,共8页
在传统的粒子群优化算法(PSO)中,所有粒子都遵循最初设定的一些参数进行自我探索,这种方案容易导致过早成熟,且易被困于局部最优点。针对以上问题,该文提出了一种基于深度确定性策略梯度的粒子群优化算法(DDPGPSO),通过构造神经网络分... 在传统的粒子群优化算法(PSO)中,所有粒子都遵循最初设定的一些参数进行自我探索,这种方案容易导致过早成熟,且易被困于局部最优点。针对以上问题,该文提出了一种基于深度确定性策略梯度的粒子群优化算法(DDPGPSO),通过构造神经网络分别实现了动作函数和动作价值函数,且利用神经网络可以动态地生成算法运行所需要的参数,降低了人工配置算法的难度。实验表明DDPGPSO相比9种同类算法在收敛速度和寻优精度上均有较大的提升。 展开更多
关键词 自适应惯性权值 收敛因子 深度确定性策略梯度算法 强化学习 群体智能 粒子群优化算法
在线阅读 下载PDF
改进双延迟深度确定性策略梯度的多船协调避碰决策
9
作者 黄仁贤 罗亮 +1 位作者 杨萌 刘维勤 《计算机科学》 CSCD 北大核心 2023年第11期269-281,共13页
目前,多数海上避碰模型都是将船舶作为单智能体进行避碰决策,未考虑船舶间的协调避让,在多船会遇场景下仅靠单船进行避碰操作会导致避让效果不佳。为此,提出了一种改进双延迟深度确定性策略梯度算法(TD3)的Softmax深层双确定性策略梯度(... 目前,多数海上避碰模型都是将船舶作为单智能体进行避碰决策,未考虑船舶间的协调避让,在多船会遇场景下仅靠单船进行避碰操作会导致避让效果不佳。为此,提出了一种改进双延迟深度确定性策略梯度算法(TD3)的Softmax深层双确定性策略梯度(SD3)多船协调避碰模型。从考虑船舶航行安全的时空因素出发构建时间碰撞模型、空间碰撞模型,对船舶碰撞风险进行定量分析,在此基础上采用根据会遇态势和船速矢量动态变化的船域模型对船舶碰撞风险进行定性分析。综合船舶目标导向、航向角改变、航向保持、碰撞风险和《国际海上避碰规则》(COLREGS)的约束设计奖励函数,结合COLREGS中的典型相遇情况构造对遇、追越和交叉相遇多局面共存的会遇场景进行避碰模拟仿真。消融实验显示softmax运算符提升了SD3算法的性能,使其在船舶协调避碰中拥有更好的决策效果,并与其他强化学习算法进行学习效率和学习效果的比较。实验结果表明,SD3算法在多局面共存的复杂场景下能高效做出准确的避碰决策,并且性能优于其他强化学习算法。 展开更多
关键词 多船会遇 协调避碰 智能决策 延迟深度确定性策略梯度(TD3) Softmax深层确定性策略梯度(SD3) 强化学习
在线阅读 下载PDF
基于双延迟深度确定性策略梯度的综合能源微网运行优化
10
作者 谢启跃 应雨龙 《济南大学学报(自然科学版)》 CAS 北大核心 2022年第3期301-307,共7页
为了满足综合能源微网运行优化及能量管理的需求,提出基于双延迟深度确定性策略梯度算法的综合能源微网运行优化方法;基于标准化矩阵建模理论,构建一个含冷、热、电供应的综合能源微网数学模型;考虑到综合能源微网中天然气、主电网供电... 为了满足综合能源微网运行优化及能量管理的需求,提出基于双延迟深度确定性策略梯度算法的综合能源微网运行优化方法;基于标准化矩阵建模理论,构建一个含冷、热、电供应的综合能源微网数学模型;考虑到综合能源微网中天然气、主电网供电等相关约束和电力价格的变化,提出以运行成本最小化为目标的双延迟深度确定性策略梯度算法,对各种能源设备的出力情况作出决策,形成合理的能源分配管理方案。仿真结果表明,所提出方法的性能优于非线性算法、深度Q网络算法和深度确定性策略梯度算法,在确保运行成本最小化的同时计算耗时较短。 展开更多
关键词 综合能源微网 运行优化 延迟深度确定性策略梯度 强化学习
在线阅读 下载PDF
基于深度确定性策略梯度算法的风光储系统联合调度策略 被引量:10
11
作者 张淑兴 马驰 +3 位作者 杨志学 王尧 吴昊 任洲洋 《中国电力》 CSCD 北大核心 2023年第2期68-76,共9页
针对风光储联合系统的调度问题,提出了一种基于深度强化学习的风光储系统联合调度模型。首先,以计划跟踪、弃风弃光以及储能运行成本最小为目标,建立了充分考虑风光储各个场站约束下的联合调度模型。然后,定义该调度模型在强化学习框架... 针对风光储联合系统的调度问题,提出了一种基于深度强化学习的风光储系统联合调度模型。首先,以计划跟踪、弃风弃光以及储能运行成本最小为目标,建立了充分考虑风光储各个场站约束下的联合调度模型。然后,定义该调度模型在强化学习框架下的系统状态变量、动作变量以及奖励函数等,引入了深度确定性策略梯度算法,利用其环境交互、策略探索的机制,学习风光储系统的联合调度策略,以实现对联合系统功率跟踪,减少弃风弃光以及储能充放电。最后,借用西北某地区风电、光伏、跟踪计划的历史数据对模型进行了训练和算例分析,结果表明所提方法可以较好地适应不同时期的风光变化,得到在给定风光下联合系统的调度策略。 展开更多
关键词 风光储联合系统 联合调度策略 确定性 深度强化学习 深度确定性策略梯度算法
在线阅读 下载PDF
基于改进深度确定性策略梯度算法的微电网能量优化调度 被引量:10
12
作者 李瑜 张占强 +1 位作者 孟克其劳 魏皓天 《电子测量技术》 北大核心 2023年第2期73-80,共8页
针对微电网中分布式发电设备存在输出不确定性和间歇性问题,以及传统的深度确定性策略梯度算法存在收敛速度慢、鲁棒性差、容易陷入局部最优的缺点。本文提出了一种基于优先经验回放的深度确定性策略梯度算法,以微电网系统运行成本最低... 针对微电网中分布式发电设备存在输出不确定性和间歇性问题,以及传统的深度确定性策略梯度算法存在收敛速度慢、鲁棒性差、容易陷入局部最优的缺点。本文提出了一种基于优先经验回放的深度确定性策略梯度算法,以微电网系统运行成本最低为目标,实现微电网的能量优化调度。首先,采用马尔可夫决策过程对微电网优化问题进行建模;其次,采用Sumtree结构的优先经验回放池提升样本利用效率,并且应用重要性采样来改善状态分布对收敛结果的影响。最后,本文利用真实的电力数据进行仿真验证,结果表明,提出的优化调度算法可以有效地学习到使微电网系统经济成本最低的运行策略,所提出的算法总运行时间比传统算法缩短了7.25%,运行成本降低了31.5%。 展开更多
关键词 优先经验回放 微电网能量优化调度 深度确定性策略梯度算法
在线阅读 下载PDF
基于TD3算法的光伏电站参与电力系统频率控制策略
13
作者 张建华 陶莹 赵思 《郑州大学学报(工学版)》 北大核心 2025年第3期42-49,共8页
针对光伏电力输出具有间歇性和随机性对维持电力系统频率稳定构成的挑战,提出了一种基于双延迟深度确定性策略梯度算法的快速频率调节方法,该方法无须依赖特定的机理模型,适用于解决与光伏发电相关的强不确定性问题。首先,构建了一个简... 针对光伏电力输出具有间歇性和随机性对维持电力系统频率稳定构成的挑战,提出了一种基于双延迟深度确定性策略梯度算法的快速频率调节方法,该方法无须依赖特定的机理模型,适用于解决与光伏发电相关的强不确定性问题。首先,构建了一个简化的光伏发电系统模型;其次,基于双延迟深度确定性策略梯度算法设计了一种新型频率控制器;最后,将所提控制策略与传统下垂控制、滑模控制及基于深度确定性策略梯度算法的控制策略进行了比较。结果表明:在分别施加负荷单次阶跃扰动和负荷连续阶跃扰动的两种场景中,基于所提控制策略的频率偏差均明显低于其他3种控制算法,时间乘绝对误差积分准则比性能最差的下垂控制分别减小了41.7%和31.8%,充分验证了所提控制策略在调频过程动态性能和稳态性能方面的优越性。 展开更多
关键词 光伏并网系统 一次调频 深度强化学习 双延迟深度确定性策略梯度算法 控制性能
在线阅读 下载PDF
基于改进深度强化学习算法的自动电压调节器控制 被引量:1
14
作者 阮柏松 刘利 +3 位作者 顾阳 刘琦 王涵 赵晶晶 《电力系统及其自动化学报》 北大核心 2025年第6期150-158,共9页
为适应大容量同步发电机组并网点母线电压波动增加对自动电压调节器(automatic voltage regulator,AVR)系统响应能力的更高要求,提出一种基于含探索网络的双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient wi... 为适应大容量同步发电机组并网点母线电压波动增加对自动电压调节器(automatic voltage regulator,AVR)系统响应能力的更高要求,提出一种基于含探索网络的双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient with Explorer network,TD3EN)算法的同步发电机励磁电压控制方法。首先,通过传递函数对同步发电机励磁调压子系统进行建模;然后建立TD3EN算法探索网络、动作网络和评价网络,并设置相应参数;接着利用TD3EN算法训练智能体,通过探索网络探索动作空间,并根据评价网络更新动作网络参数,使其为AVR提供控制信号;将训练完成的智能体接入AVR系统,实现对发电机机端电压的控制。仿真结果表明,所提方法提高了AVR系统响应调节指令和应对电压暂降的能力。 展开更多
关键词 双延迟深度确定性策略梯度算法 探索网络 深度强化学习 同步发电机 自动电压调节器
在线阅读 下载PDF
基于深度强化学习的电力系统紧急切机稳控策略生成方法 被引量:2
15
作者 高琴 徐光虎 +3 位作者 夏尚学 杨欢欢 赵青春 黄河 《电力科学与技术学报》 北大核心 2025年第1期39-46,共8页
电力系统快速发展的同时也改变着电力系统的结构,使得系统稳定机理变得更加复杂。为解决新能源电力系统存在的功角稳定问题,提出基于深度强化学习的电力系统紧急切机稳控策略生成方法。首先,归纳并提出电力系统紧急控制切机动作策略以... 电力系统快速发展的同时也改变着电力系统的结构,使得系统稳定机理变得更加复杂。为解决新能源电力系统存在的功角稳定问题,提出基于深度强化学习的电力系统紧急切机稳控策略生成方法。首先,归纳并提出电力系统紧急控制切机动作策略以及涉及的安全约束,并将电力系统稳控模型转换为马尔科夫决策过程,再采用特征评估与斯皮尔曼(Spearman)等级相关系数方法筛选出最典型的特征数据;随后,为提高稳控策略智能体的训练效率,提出基于深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法的稳控策略训练框架;最后,在IEEE 39节点系统和某实际电网中进行测试验证。研究结果显示,所提方法能够根据系统的运行状态和对故障的响应,自动调整生成切机稳控策略,在决策效果和效率方面都表现出更好的性能。 展开更多
关键词 新能源电力系统 稳控策略 强化学习 深度确定性策略梯度算法 马尔科夫模型
在线阅读 下载PDF
基于深度强化学习算法的氢耦合电-热综合能源系统优化调度
16
作者 梁涛 柴露露 +2 位作者 谭建鑫 井延伟 吕梁年 《电力自动化设备》 北大核心 2025年第1期59-66,共8页
为了促进氢能与综合能源系统中其他能源的耦合,提高能源利用灵活性,减少系统碳排放,提出了一种氢耦合电-热综合能源系统(HCEH-IES)的运行优化方法。对HCEH-IES的各设备进行数学建模,并深入阐述深度强化学习算法的基本原理及双延迟深度... 为了促进氢能与综合能源系统中其他能源的耦合,提高能源利用灵活性,减少系统碳排放,提出了一种氢耦合电-热综合能源系统(HCEH-IES)的运行优化方法。对HCEH-IES的各设备进行数学建模,并深入阐述深度强化学习算法的基本原理及双延迟深度确定性策略梯度(TD3)算法的流程;将HCEH-IES的不确定性优化调度问题转化为马尔可夫决策过程,并采用TD3算法将优化目标以及约束条件转换为奖励函数进行连续状态空间和动作空间下的动态调度决策,形成合理的能源分配管理方案;采用历史数据对智能体进行训练,并对比深度Q学习网络和深度确定性策略梯度算法获得的调度策略。结果表明,相较于深度Q学习网络和深度确定性策略梯度算法,基于TD3算法的调度策略具有更好的经济性,其结果更接近于CPLEX日前优化调度方法的经济成本且更适用于解决综合能源系统动态优化调度问题,有效地实现了能源灵活利用,提高了综合能源系统的经济性和低碳性。 展开更多
关键词 氢耦合电-热综合能源系统 可再生能源 深度强化学习 延迟深度确定性策略梯度 能量优化管理 马尔可夫决策过程
在线阅读 下载PDF
基于深度强化学习的自适应不确定性经济调度 被引量:75
17
作者 彭刘阳 孙元章 +2 位作者 徐箭 廖思阳 杨丽 《电力系统自动化》 EI CSCD 北大核心 2020年第9期33-42,共10页
当风电、光伏等间歇性电源大规模接入电力系统时,为应对其出力的不确定性,电力系统经济调度模型需建立在对不确定性建模的基础上,建模精确度将直接影响调度结果的精确度。但当系统同时包含风电、光伏和负荷复杂的不确定性时,对系统整体... 当风电、光伏等间歇性电源大规模接入电力系统时,为应对其出力的不确定性,电力系统经济调度模型需建立在对不确定性建模的基础上,建模精确度将直接影响调度结果的精确度。但当系统同时包含风电、光伏和负荷复杂的不确定性时,对系统整体不确定性进行精确建模显得尤为困难。针对这一问题,引入深度强化学习中深度确定性策略梯度算法,避免对复杂的不确定性进行建模,利用其与环境交互、根据反馈学习改进策略的机制,自适应不确定性的变化。为确保算法适用性,进行了模型泛化方法的设计,针对算法稳定性问题进行了感知-学习比例调整和改进经验回放的机制设计。算例结果表明,所提方法能在自适应系统不确定性的基础上,实现任意场景下的电力系统动态经济调度。 展开更多
关键词 间歇性电源 确定性 动态经济调度 深度强化学习 深度确定性策略梯度算法
在线阅读 下载PDF
基于深度强化学习的停机位分配
18
作者 向征 吴秋玥 +1 位作者 储同 岳伊杨 《科学技术与工程》 北大核心 2025年第16期6977-6984,共8页
针对停机位分配问题展开系统研究,目标是最小化远机位分配数量以及近机位空闲时间,针对其多目标多约束特性,提出以最小远机位分配数量和最小近机位空闲时间为目标的多目标数学模型,该模型考虑了航班进出港实际时间、机型类别及停机位间... 针对停机位分配问题展开系统研究,目标是最小化远机位分配数量以及近机位空闲时间,针对其多目标多约束特性,提出以最小远机位分配数量和最小近机位空闲时间为目标的多目标数学模型,该模型考虑了航班进出港实际时间、机型类别及停机位间相互关系等参数。结合深度强化学习方法,特别是深度确定性策略梯度算法(deep deterministic policy gradient,DDPG),对停机位分配过程进行优化。为提升算法的寻优能力与性能,设计了改进后的DDPG算法,融入优先级经验回放和多策略融合探索机制。通过对比实验,表明改进后的算法更优,显著减少了最小远机位分配数量并优化了近机位空闲时间,且收敛更快、全局寻优能力更强,充分证实了其有效性。 展开更多
关键词 停机位分配 深度学习 强化学习 深度确定性策略梯度算法(DDPG)
在线阅读 下载PDF
基于改进DDPG算法的无人船自主避碰决策方法
19
作者 关巍 郝淑慧 +1 位作者 崔哲闻 王淼淼 《中国舰船研究》 北大核心 2025年第1期172-180,共9页
[目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收... [目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收敛性。基于船舶领域和《国际海上避碰规则》(COLREGs),设置会遇情况判定模型和一组新定义的奖励函数,并考虑了紧迫危险以应对他船不遵守规则的情况。为验证所提方法的有效性,在两船和多船会遇局面下进行仿真实验。[结果]结果表明,改进的DDPG算法相比于传统DDPG算法在收敛速度上提升约28.8%,[结论]训练好的自主避碰模型可以使无人船在遵守COLREGs的同时实现自主决策和导航,为实现更加安全、高效的海上交通智能化决策提供参考。 展开更多
关键词 无人船 深度确定性策略梯度算法 自主避碰决策 优先经验回放 国际海上避碰规则 避碰
在线阅读 下载PDF
基于深度强化学习的梯级水蓄风光互补系统优化调度策略研究 被引量:11
20
作者 刘建行 刘方 《广东电力》 北大核心 2024年第5期10-22,共13页
对常规水电站进行抽水蓄能功能重塑,使其由“电源供应者”逐步转为“电源供应者+‘电池’调节者”,是解决大规模灵活性资源需求的重要技术手段。以梯级水蓄风光互补系统(cascade hydropower-pumping-storage-wind-photovoltaic multi-en... 对常规水电站进行抽水蓄能功能重塑,使其由“电源供应者”逐步转为“电源供应者+‘电池’调节者”,是解决大规模灵活性资源需求的重要技术手段。以梯级水蓄风光互补系统(cascade hydropower-pumping-storage-wind-photovoltaic multi-energy complementary system,CHPMCS)为研究对象,首先针对其发电抽蓄双向运行工况灵活转换和互补消纳特征,以系统发电效益最大为目标建立短期优化运行模型;其次,考虑CHPMCS出力连续可调的特点,提出将优化调度问题转换为马尔可夫决策过程,从而将多约束优化问题转换为无约束深度强化学习问题;然后,针对深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法训练效率低、易陷入局部最优等缺陷,采用改进DDPG算法对优化调度决策过程进行求解。最后,通过算例验证所提模型和算法的有效性。结果表明:CHPMCS通过水电功能重塑,有效提升了灵活性和调节能力,可以提高新能源的消纳能力和水资源的利用率,并通过“低储高发”提高系统发电效益。 展开更多
关键词 梯级水蓄风光互补系统 优化调度 新能源消纳 深度强化学习 改进深度确定性策略梯度算法
在线阅读 下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部