期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
基于分布式双层强化学习的区域综合能源系统多时间尺度优化调度
1
作者 张薇 王浚宇 +1 位作者 杨茂 严干贵 《电工技术学报》 北大核心 2025年第11期3529-3544,共16页
考虑异质能源在网络中的流动时间差异性,提升系统设备在不同时间尺度下调控的灵活性,是实现区域综合能源系统(RIES)多时间尺度优化调度的关键。为此,该文提出一种面向冷-热-电RIES的分布式双层近端策略优化(DBLPPO)调度模型。首先将RIE... 考虑异质能源在网络中的流动时间差异性,提升系统设备在不同时间尺度下调控的灵活性,是实现区域综合能源系统(RIES)多时间尺度优化调度的关键。为此,该文提出一种面向冷-热-电RIES的分布式双层近端策略优化(DBLPPO)调度模型。首先将RIES内部能源的出力、储存和转换构建高维空间的马尔可夫决策过程数学模型;其次基于改进的分布式近端策略优化算法对其进行序贯决策描述,构建内部双层近端策略优化(PPO)的控制模型,局部网络采用“先耦合-再解耦”的求解思路对冷-热力系统和电力系统的设备进行多时间尺度优化决策,最终实现RIES冷-热力系统与电力系统的多时间尺度调度和协同优化运行;最后仿真结果表明,所提模型不仅能克服深度强化学习算法在复杂随机场景下的“维数灾难”问题,实现RIES各能源网络在不同时间尺度下的协同优化管理,还能加快模型的最优决策求解速度,提高系统运行的经济效益。 展开更多
关键词 区域综合能源系统 多时间尺度 分布式双层近端策略优化 深度强化学习 协同优化管理 经济效益
在线阅读 下载PDF
基于深度强化学习算法的分布式光伏-EV互补系统智能调度
2
作者 陈宁 李法社 +3 位作者 王霜 张慧聪 唐存靖 倪梓皓 《高电压技术》 北大核心 2025年第3期1454-1463,共10页
针对分布式光伏与电动汽车(electric vehicle,EV)大规模接入电网将对电力系统造成冲击的问题,通过建立分布式光伏-EV互补调度模型,以平抑光伏并网波动、增加EV用户经济性为目标,考虑光伏出力的随机性、负荷功率波动、EV接入时间及电量... 针对分布式光伏与电动汽车(electric vehicle,EV)大规模接入电网将对电力系统造成冲击的问题,通过建立分布式光伏-EV互补调度模型,以平抑光伏并网波动、增加EV用户经济性为目标,考虑光伏出力的随机性、负荷功率波动、EV接入时间及电量随机性、实时电价、电池老化成本等因素,提出采用梯度随机扰动的改进型近端策略优化算法(gradient random perturbation-proximal policy optimization algorithm,GRP-PPO)进行求解,通过对模型目标函数的调整,得到基于不同优化目标的2种实时运行策略。通过算例可知,实时调度策略可有效地平抑并网点功率波动,调度效果较传统PPO算法提高了3.48%;策略一以用户的出行需求及平抑并网点功率波动为首要目标,能够保证用户的24h用车需求,同时并网点功率稳定率达到91.84%;策略二以用户经济效益为首要优化目标,全天参与调度的EV收益可达82.6元,可起到鼓励用户参与调度的目的。 展开更多
关键词 分布式光伏 电动汽车 V2G 深度强化学习 实时调度 近端策略优化
在线阅读 下载PDF
Pipe-RLHF:计算模式感知的RLHF并行加速框架
3
作者 徐颖 王梦迪 +4 位作者 程龙 刘炼 赵世新 张磊 王颖 《计算机研究与发展》 北大核心 2025年第6期1513-1529,共17页
基于人类反馈的强化学习(reinforcement learning with human feedback,RLHF)作为当前大语言模型(large language models,LLMs)对齐的主流方法,其核心优化算法——近端策略优化(proximal policy optimization,PPO)却面临着显著的效率问... 基于人类反馈的强化学习(reinforcement learning with human feedback,RLHF)作为当前大语言模型(large language models,LLMs)对齐的主流方法,其核心优化算法——近端策略优化(proximal policy optimization,PPO)却面临着显著的效率问题.PPO由生成、推理、训练3个相互关联的阶段组成,各个阶段有着不同的计算特性.然而,现有的RLHF并行框架采用相同并行策略顺序执行PPO的所有阶段,这导致以下2个问题:其一,生成阶段不能充分利用计算资源,进而影响整体效率;其二,阶段间严格串行执行,未能充分利用潜在并行性.针对上述问题,提出了一个新型RLHF并行框架——Pipe-RLHF.该框架能够自适应地根据各阶段的计算特征确定最优并行策略,突破现有阶段串行范式,采用异步PPO算法发掘阶段间的并行性.具体而言,创新性地提出了适用于PPO生成阶段的延迟批间流水线并行方法,显著提升了该阶段的计算资源利用率;再次,使用异步PPO解放阶段间的依赖关系,将阶段间并行应用到PPO的加速上;最后,针对PPO算法的整体优化,构建了分层并行策略空间,并提出了一套优化算法以实现该空间中的最优解搜索.通过在多个大语言模型上的性能评估实验表明,相较于现有方法,Pipe-RLHF最高可实现3.7倍的加速比,充分验证了该框架的有效性和优越性. 展开更多
关键词 基于人类反馈的强化学习 近端策略优化 大模型微调 分布式系统 并行计算
在线阅读 下载PDF
基于混合分布式深度强化学习的电力系统暂态稳定紧急控制
4
作者 陈一熙 朱继忠 +1 位作者 刘嘉媛 黄林莹 《电网技术》 北大核心 2025年第4期1513-1523,I0054,I0055,共13页
“双碳”目标下大规模新能源并网使得电力系统运行方式的时变特性增强,对在线紧急控制策略提出了新的要求。为维持电力系统在受到大扰动后的暂态稳定,提出一种基于混合分布式深度强化学习的在线紧急控制策略。首先,将暂态稳定紧急控制... “双碳”目标下大规模新能源并网使得电力系统运行方式的时变特性增强,对在线紧急控制策略提出了新的要求。为维持电力系统在受到大扰动后的暂态稳定,提出一种基于混合分布式深度强化学习的在线紧急控制策略。首先,将暂态稳定紧急控制问题建模为马尔可夫决策过程。然后,针对常规深度强化学习算法因离散化混合动作空间所导致的维数灾、精度下降等问题,提出了一种离散-连续混合策略架构,并采用近端策略优化算法作为策略更新方法,实现了对紧急控制问题中混合动作空间的直接处理。接着,针对常规深度强化学习算法训练时间长、鲁棒性不足等弊端,引入分布式并行训练架构,并设计了融入紧急控制先验物理知识的非法动作屏蔽机制,显著提高了算法的训练速度和鲁棒性。最后,通过IEEE 39节点系统验证了所提算法在暂态稳定紧急控制决策中的有效性和优越性。 展开更多
关键词 暂态稳定 紧急控制 深度强化学习 离散-连续混合策略 分布式并行训练 近端策略优化
在线阅读 下载PDF
基于自注意力PPO算法的智能配电网多设备协同无功优化控制策略 被引量:2
5
作者 张黎元 宋兴旺 +3 位作者 李冰洁 梁睿 刘长德 彭奕洲 《智慧电力》 北大核心 2024年第10期40-48,共9页
针对智能配电网无功可调控资源多样化场景下的快速趋优难题,提出了一种基于多头自注意力近端策略优化算法的多设备协同无功优化控制方法。首先,将无功优化问题建模为马尔可夫决策过程;然后,在深度强化学习框架下使用多头自注意力改进近... 针对智能配电网无功可调控资源多样化场景下的快速趋优难题,提出了一种基于多头自注意力近端策略优化算法的多设备协同无功优化控制方法。首先,将无功优化问题建模为马尔可夫决策过程;然后,在深度强化学习框架下使用多头自注意力改进近端策略优化(PPO)算法对策略网络进行优化训练,算法采用多头自注意力网络获取配电网的实时状态特征,并通过剪切策略梯度法动态控制策略网络的更新幅度;最后,在改进IEEE69节点系统进行仿真验证。结果表明,所提算法的控制性能优于现有先进强化学习算法。 展开更多
关键词 配电网 分布式光伏 电压无功控制 多头自注意力 近端策略优化算法
在线阅读 下载PDF
稀疏奖励下基于课程学习的无人机空战仿真 被引量:1
6
作者 祝靖宇 张宏立 +4 位作者 匡敏驰 史恒 朱纪洪 乔直 周文卿 《系统仿真学报》 CAS CSCD 北大核心 2024年第6期1452-1467,共16页
针对传统强化学习在空战环境下探索能力差和奖励稀疏的问题,提出了一种基于课程学习的分布式近端策略优化(curriculum learning distributed proximal policy optimization,CLDPPO)强化学习算法。嵌入包含专家经验知识的奖励函数,设计... 针对传统强化学习在空战环境下探索能力差和奖励稀疏的问题,提出了一种基于课程学习的分布式近端策略优化(curriculum learning distributed proximal policy optimization,CLDPPO)强化学习算法。嵌入包含专家经验知识的奖励函数,设计了离散化的动作空间,构建了局部观测与全局观测分离的演员评论家网络。通过为无人机制定进攻、防御以及综合课程,让无人机从基本课程由浅入深开始学习作战技能,阶段性提升无人机作战能力。实验结果表明:以课程学习方式训练的无人机能以一定的优势击败专家系统和主流强化学习算法,同时具有空战战术的自我学习能力,有效改善稀疏奖励的问题。 展开更多
关键词 UAVS 空战 稀疏奖励 课程学习 分布式近端策略优化
在线阅读 下载PDF
基于深度强化学习的分布式能源系统运行优化 被引量:14
7
作者 阮应君 侯泽群 +1 位作者 钱凡悦 孟华 《科学技术与工程》 北大核心 2022年第17期7021-7030,共10页
分布式能源系统凭借其高效、环保、经济、可靠、和灵活等特点成为中国能源未来发展的重要方向。目前中国的很多分布式能源系统经济效益较差,主要原因是能源系统没有良好的运行策略。提出了一种基于深度强化学习的分布式能源系统运行优... 分布式能源系统凭借其高效、环保、经济、可靠、和灵活等特点成为中国能源未来发展的重要方向。目前中国的很多分布式能源系统经济效益较差,主要原因是能源系统没有良好的运行策略。提出了一种基于深度强化学习的分布式能源系统运行优化方法。首先,对分布式能源系统的各个设备进行数学建模;其次,深入阐述了强化学习的基本原理、深度学习对强化学习的结合原理及一种基于演员评论家算法的分布式近端策略优化(distributed proximal policy optimization,DPPO)算法流程,将分布式能源系统运行优化问题转化为马尔可夫决策过程(Markov decision process,MDP);最后,采用历史的数据对智能体进行训练,训练完成的模型可以实现对分布式能源系统的实时优化,并对比了深度Q网络(deep Q network,DQN)算法和LINGO获得的调度策略。结果表明,基于DPPO算法的能源系统调度优化方法较DQN算法和LINGO得到的结果运行费用分别降低了7.12%和2.27%,可以实现能源系统的经济性调度。 展开更多
关键词 深度强化学习 分布式近端策略优化 分布式能源系统 运行优化
在线阅读 下载PDF
基于近端策略优化算法的灾后配电网韧性提升方法 被引量:12
8
作者 王子昊 王旭 +3 位作者 蒋传文 龚开 白冰青 邓晖 《电力系统自动化》 EI CSCD 北大核心 2022年第21期62-70,共9页
台风灾害易导致配电网线路断线,并解列成多个孤岛运行。如何高效实现配电网网络重构、分布式发电调度以促进灾后负荷恢复这一问题亟待解决。文中提出了一种基于深度强化学习近端策略优化(PPO)算法的灾后配电网韧性提升方法。首先,以灾... 台风灾害易导致配电网线路断线,并解列成多个孤岛运行。如何高效实现配电网网络重构、分布式发电调度以促进灾后负荷恢复这一问题亟待解决。文中提出了一种基于深度强化学习近端策略优化(PPO)算法的灾后配电网韧性提升方法。首先,以灾后配电网的节点电压偏差、负荷损失和发电成本最小为目标,构造了内层优化模型。其次,将灾后配电网韧性提升策略转化为多阶段马尔可夫决策过程,并构建了外层强化学习优化模型。以联络线开关的投切指令为控制变量,最大化负荷恢复为优化目标,并采用PPO算法进行求解。然后,分析了PPO算法的样本数据处理方法,并对PPO算法训练过程进行测试以验证该算法的收敛性。最后,采用改进的IEEE 33节点、IEEE 118节点配电网进行算例分析,验证了所提优化方法的可行性。 展开更多
关键词 配电网 韧性 近端策略优化 深度强化学习 灾害
在线阅读 下载PDF
基于可迁移强化学习的断面输电极限计算方法 被引量:2
9
作者 李康文 邱高 +3 位作者 刘挺坚 刘友波 刘俊勇 丁理杰 《电网技术》 EI CSCD 北大核心 2023年第12期5147-5157,共11页
断面输电极限是电网安全边界在断面割集的降维投影,其实质是考虑电压无功优化和多类稳定约束的复杂混合整数非凸非线性问题,而新能源的引入进一步扩大了其计算维度,传统方法难以求解。为此,提出一种基于可迁移强化学习的断面输电极限计... 断面输电极限是电网安全边界在断面割集的降维投影,其实质是考虑电压无功优化和多类稳定约束的复杂混合整数非凸非线性问题,而新能源的引入进一步扩大了其计算维度,传统方法难以求解。为此,提出一种基于可迁移强化学习的断面输电极限计算方法。首先,考虑暂态功角及电压稳定约束,计及包括电容器组等无功资源,建立含微分代数方程的输电极限混合整数计算模型;然后,将该模型转化为混合整数的马尔科夫决策过程,提出基于混合Categorical分布的近端策略优化求解方法;最后,引入策略分布熵最大化目标,确保智能计算模型在未见运行方式下的迁移能力,实现运行方式或边界条件切换下的输电极限快速分析。IEEE39节点系统的算例结果表明,相比传统元启发式黑盒优化算法,所提方法在几乎不牺牲精度的前提下效率提升了97.15%。 展开更多
关键词 输电极限 无功优化 可迁移强化学习 近端策略优化 策略分布熵
在线阅读 下载PDF
基于改进PPO的HCSY-MG并网系统分布式混合储能充放电优化控制
10
作者 李锦键 王兴贵 丁颖杰 《电源学报》 2025年第4期255-264,共10页
为平抑微源半桥变流器串联星型结构微电网HCSY-MG(half-bridge converter series Y-connection micro-grids)并网系统中微源出力的波动,保证各相直流侧电压之和相等,与并网电流三相平衡,提出1种基于改进近端策略优化PPO(proximal policy... 为平抑微源半桥变流器串联星型结构微电网HCSY-MG(half-bridge converter series Y-connection micro-grids)并网系统中微源出力的波动,保证各相直流侧电压之和相等,与并网电流三相平衡,提出1种基于改进近端策略优化PPO(proximal policy optimization)的分布式混合储能系统HESS(hybrid energy storage system)充、放电优化控制策略。在考虑HCSY-MG系统并网电流与分布式HESS特性的条件下,确定影响并网电流的主要系统变量,以及HESS接入系统的最佳拓扑结构。然后结合串联系统的特点,将分布式HESS的充、放电问题转换为深度强化学习的Markov决策过程。同时针对PPO算法中熵损失权重难以确定的问题,提出1种改进的PPO算法,兼顾智能体的收敛性和探索性。最后以某新能源发电基地的典型运行数据为算例,验证所提控制策略的可行性和有效性。 展开更多
关键词 串联微电网 分布式混合储能系统 近端策略优化 充放电功率 深度强化学习
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部