期刊文献+
共找到52篇文章
< 1 2 3 >
每页显示 20 50 100
基于近端策略优化算法的电力系统多类型储能爬坡功率分配策略
1
作者 王杰 苗世洪 +3 位作者 王廷涛 姚福星 励刚 汤伟 《高电压技术》 北大核心 2025年第9期4796-4806,I0020-I0025,共17页
随着新能源发电比例不断提高,由此引发的短时大规模功率爬坡事件愈加频繁,因此研究多类型储能爬坡功率分配策略对防范极端爬坡风险、保障系统稳定运行具有重要意义。该文提出一种面向紧急爬坡需求的多类型储能功率优化分配策略,引入深... 随着新能源发电比例不断提高,由此引发的短时大规模功率爬坡事件愈加频繁,因此研究多类型储能爬坡功率分配策略对防范极端爬坡风险、保障系统稳定运行具有重要意义。该文提出一种面向紧急爬坡需求的多类型储能功率优化分配策略,引入深度强化学习(deep reinforcement learning,DRL)方法以兼顾功率分配的准确性与时效性。首先,以绝热压缩空气储能(adiabatic compressed air energy storage,A-CAES)、风电联合储能、火电联合飞轮储能为代表,分析多类型储能的爬坡互补特性,重点研究A-CAES的非线性热动-气动耦合特征及风储系统的风机转子动能瞬态响应行为,并据此构建多类型储能爬坡功率响应模型;其次,将功率优化分配问题转化为适合DRL的马尔可夫决策过程,并引入学习率动态衰减、策略熵以及状态归一化等训练机制,提出基于近端策略优化算法的电力系统多类型储能爬坡功率分配策略;最后,在多种爬坡场景下开展算例分析。结果表明,所提分配策略能够充分发挥各类储能的调控优势,提高爬坡功率分配的灵活性、精准性、时效性。 展开更多
关键词 策略优化算法 多类型储能 功率优化分配 爬坡场景 深度强化学习 绝热压缩空气储能
在线阅读 下载PDF
基于近端策略优化的数据中心任务调度算法
2
作者 徐涛 常怡明 刘才华 《计算机工程与设计》 北大核心 2025年第3期712-718,共7页
针对调度算法无法动态适应数据中心状态动态变化和用户需求多样化的问题,提出一种基于近端策略优化的数据中心两阶段任务调度算法。通过设计优先级函数为任务提供优先级,采用近端策略优化方法适应数据中心状态动态变化和用户需求的多样... 针对调度算法无法动态适应数据中心状态动态变化和用户需求多样化的问题,提出一种基于近端策略优化的数据中心两阶段任务调度算法。通过设计优先级函数为任务提供优先级,采用近端策略优化方法适应数据中心状态动态变化和用户需求的多样化。在任务选择阶段通过计算任务的优先级,优先调度高优先级任务;在物理服务器选择阶段,智能体根据实时的数据中心状态和用户需求,灵活地调整任务调度决策,实现资源的高效分配。实验结果表明,该算法性能优于现有的启发式算法以及常用强化学习算法。 展开更多
关键词 调度算法 数据中心 任务调度 强化学习 策略优化 优先级 两阶段
在线阅读 下载PDF
基于改进近端策略优化算法的AGV路径规划与任务调度 被引量:2
3
作者 祁璇 周通 +2 位作者 王村松 彭孝天 彭浩 《计算机集成制造系统》 北大核心 2025年第3期955-964,共10页
自动引导车(AGV)是一种具有高度柔性和灵活性的自动化物料运输设备,可实现路径规划、任务调度和智能分配等功能。目前关于AGV最优路径与调度算法研究仍存在泛化性差、收敛效率低、寻路时间长等问题。因此,提出一种改进近端策略优化算法(... 自动引导车(AGV)是一种具有高度柔性和灵活性的自动化物料运输设备,可实现路径规划、任务调度和智能分配等功能。目前关于AGV最优路径与调度算法研究仍存在泛化性差、收敛效率低、寻路时间长等问题。因此,提出一种改进近端策略优化算法(PPO)。首先,采用多步长动作选择策略增加AGV移动步长,将AGV动作集由原来的4个方向基础上增加了8个方向,优化最优路径;其次,改进动态奖励值函数,根据AGV当前状态实时调整奖励值大小,提高其学习能力;然后,基于不同改进方法比较其奖励值曲线图,验证算法收敛效率与最优路径距离;最后,采用多任务调度优化算法,设计了一种单AGV多任务调度优化算法,提高运输效率。结果表明:改进后的算法最优路径缩短了28.6%,改进后的算法相比于PPO算法收敛效率提升了78.5%,在处理更为复杂、需要高水平策略的任务时表现更佳,具有更强的泛化能力;将改进后的算法与Q学习、深度Q学习(DQN)算法、软演员-评论家(SAC)算法进行比较,算法效率分别提升了84.4%、83.7%、77.9%;单AGV多任务调度优化后,平均路径缩短了47.6%。 展开更多
关键词 自动导引小车 路径规划 任务调度 策略优化算法 强化学习
在线阅读 下载PDF
基于近端策略优化算法的燃料电池混合动力系统综合价值损耗最小能量管理方法 被引量:7
4
作者 李奇 刘鑫 +4 位作者 孟翔 谭逸 杨明泽 张世聪 陈维荣 《中国电机工程学报》 EI CSCD 北大核心 2024年第12期4788-4798,I0015,共12页
为了降低市域动车组燃料电池混合动力系统运行燃料经济成本,提升燃料电池耐久性,该文提出一种基于近端策略优化算法的能量管理方法。该方法将混合动力系统能量管理问题建模为马尔可夫决策过程,以综合考虑燃料经济性和燃料电池耐久性的... 为了降低市域动车组燃料电池混合动力系统运行燃料经济成本,提升燃料电池耐久性,该文提出一种基于近端策略优化算法的能量管理方法。该方法将混合动力系统能量管理问题建模为马尔可夫决策过程,以综合考虑燃料经济性和燃料电池耐久性的综合价值损耗最小为优化目标设置奖励函数,采用一种收敛速度较快的深度强化学习算法—近端策略优化算法求解,实现负载功率在燃料电池和锂电池间的合理有效分配,最后,采用市域动车组实际运行工况进行实验验证。实验结果表明,在训练工况下,所提方法相较基于等效氢耗最小能量管理方法和基于Q-learning能量管理方法,综合价值损耗分别降低19.71%和5.87%;在未知工况下,综合价值损耗分别降低18.05%和13.52%。结果表明,所提方法能够有效降低综合价值损耗,并具有较好的工况适应性。 展开更多
关键词 燃料电池混合动力系统 深度强化学习 综合价值损耗 策略优化算法 能量管理
在线阅读 下载PDF
基于近端策略优化算法的含电动汽车孤岛微电网智能频率控制策略
5
作者 卢昱宏 范培潇 +1 位作者 杨军 李蕊 《电力自动化设备》 北大核心 2025年第10期135-143,共9页
随着电动汽车数量的快速增长,其作为有限挂网储能设备参与电网调控的潜力备受关注,但用户行为的随机性与时空移动性给车网互动带来了挑战。为此,提出一种基于近端策略优化算法的含电动汽车孤岛微电网智能频率控制策略。构建包含广义聚... 随着电动汽车数量的快速增长,其作为有限挂网储能设备参与电网调控的潜力备受关注,但用户行为的随机性与时空移动性给车网互动带来了挑战。为此,提出一种基于近端策略优化算法的含电动汽车孤岛微电网智能频率控制策略。构建包含广义聚合电动汽车充电站的微电网负荷频率控制框架;基于闵可夫斯基求和方式,提出两阶段电动汽车充电站的可调控裕度计算方法;通过重要性采样比率剪切、多步经验回放、小批量优化等方式提升算法训练效率,并通过设计状态与动作空间、奖励函数以及选取合适超参数完成频率控制器的构建。仿真结果表明,所设计的控制器在训练时间和控制效果方面显著优于传统频率控制方法,为微电网的稳定运行提供了有力的技术支持。 展开更多
关键词 电动汽车 孤岛微电网 频率控制 策略优化算法 闵可夫斯基求和
在线阅读 下载PDF
基于近端策略优化算法的船舶横摇运动控制系统与试验研究
6
作者 邹远停 徐文华 焦甲龙 《振动与冲击》 北大核心 2025年第18期140-145,179,共7页
为了实现船舶在零航速下的减摇效果,提出了一种基于近端策略优化算法的减摇鳍控制策略,并在拖曳水池中开展了船模零航速减摇试验。首先,建立了S175船模装置及减摇测试系统,制定了基于强迫横摇装置及水池造波模型的横摇运动控制试验方案... 为了实现船舶在零航速下的减摇效果,提出了一种基于近端策略优化算法的减摇鳍控制策略,并在拖曳水池中开展了船模零航速减摇试验。首先,建立了S175船模装置及减摇测试系统,制定了基于强迫横摇装置及水池造波模型的横摇运动控制试验方案;然后,通过近端策略优化算法对船舶减摇运动进行学习训练,根据训练得到的决策奖励值实时生成减摇鳍最优拍动角度方案;最后,基于所建立的船舶横摇运动控制的软硬件测试系统,在水池中开展了规则波和不规则波下的船模横摇减摇试验。结果表明,所建立的减摇系统能够使船舶在各类海况下均具有较好的减摇效果。 展开更多
关键词 船舶横摇 零航速 减摇鳍 减摇试验 策略优化算法
在线阅读 下载PDF
基于近端策略优化算法含碳捕集的综合能源系统低碳经济调度 被引量:3
7
作者 王桂兰 张海晓 +1 位作者 刘宏 曾康为 《计算机应用研究》 CSCD 北大核心 2024年第5期1508-1514,共7页
为了实现园区综合能源系统(PIES)的低碳化经济运行和多能源互补,解决碳捕集装置耗电与捕碳需求之间的矛盾,以及不确定性源荷实时响应的问题,提出了基于近端策略优化算法含碳捕集的综合能源系统低碳经济调度方法。该方法通过在PIES中添... 为了实现园区综合能源系统(PIES)的低碳化经济运行和多能源互补,解决碳捕集装置耗电与捕碳需求之间的矛盾,以及不确定性源荷实时响应的问题,提出了基于近端策略优化算法含碳捕集的综合能源系统低碳经济调度方法。该方法通过在PIES中添加碳捕集装置,解决了碳捕集装置耗电和捕碳需求之间的矛盾,进而实现了PIES的低碳化运行;通过采用近端策略优化算法对PIES进行动态调度,解决了源荷的不确定性,平衡了各种能源的供给需求,进而降低了系统的运行成本。实验结果表明:该方法实现了不确定性源荷的实时响应,并相比于DDPG(deep deterministic policy gradient)和DQN(deep Q network)方法在低碳化经济运行方面具有有效性及先进性。 展开更多
关键词 园区综合能源系统 碳捕集 不确定性 低碳经济调度 策略优化算法
在线阅读 下载PDF
基于裁剪近端策略优化算法的软机械臂不规则物体抓取 被引量:2
8
作者 余家宸 杨晔 《计算机应用》 CSCD 北大核心 2024年第11期3629-3638,共10页
为应对传统深度强化学习(DRL)算法在处理复杂场景,特别是在不规则物体抓取和软体机械臂应用中算法稳定性和学习率较差的问题,提出一种基于裁剪近端策略优化(CPPO)算法的软体机械臂控制策略。通过引入裁剪函数,该算法优化了近端策略优化(... 为应对传统深度强化学习(DRL)算法在处理复杂场景,特别是在不规则物体抓取和软体机械臂应用中算法稳定性和学习率较差的问题,提出一种基于裁剪近端策略优化(CPPO)算法的软体机械臂控制策略。通过引入裁剪函数,该算法优化了近端策略优化(PPO)算法的性能,提升了它在高维状态空间的稳定性和学习效率。首先定义了软体机械臂的状态空间和动作空间,并设计了模仿八爪鱼触手的软体机械臂模型;其次利用Matlab的SoRoSim(Soft Robot Simulation)工具箱进行建模,同时定义了结合连续和稀疏函数的环境奖励函数;最后构建了基于Matlab的仿真平台,通过Python脚本和滤波器对不规则物体图像进行预处理,并利用Redis缓存高效传输处理后的轮廓数据至仿真平台。与TRPO(Trust Region Policy Optimization)和SAC(Soft Actor-Critic)算法的对比实验结果表明,CPPO算法在软体机械臂抓取不规则物体任务中达到了86.3%的成功率,比TRPO算法高出了3.6个百分点。这说明CPPO算法可以应用于软体机械臂控制,可在非结构化环境下为软体机械臂在复杂抓取任务中的应用提供重要参考。 展开更多
关键词 深度强化学习 策略优化算法 不规则物体检测 软体机械臂 机械臂抓取
在线阅读 下载PDF
基于改进PPO算法的混合动力汽车能量管理策略
9
作者 马超 孙统 +2 位作者 曹磊 杨坤 胡文静 《河北科技大学学报》 北大核心 2025年第3期237-247,共11页
为了提高功率分流式混合动力汽车(hybrid electric vehicle, HEV)的经济性,建立了HEV整车的纵向动力学模型,并提出了一种基于策略熵优化的改进近端策略优化(proximal policy optimization, PPO)算法的能量管理策略(energy management st... 为了提高功率分流式混合动力汽车(hybrid electric vehicle, HEV)的经济性,建立了HEV整车的纵向动力学模型,并提出了一种基于策略熵优化的改进近端策略优化(proximal policy optimization, PPO)算法的能量管理策略(energy management strategy, EMS)。在一般PPO算法基础上,通过采用经验池机制简化算法框架,只使用1个深度神经网络进行交互训练和更新,以减少策略网络参数同步的复杂性;为了有效探索环境并学习更高效的策略,在损失函数中增加策略熵,以促进智能体在探索与利用之间达到平衡,避免策略过早收敛至局部最优解。结果表明,这种基于单策略网络改进PPO算法的EMS相比于基于双策略网络PPO的EMS,在UDDS工况和NEDC工况下,均能更好地维持电池的荷电状态(state of charge, SOC),同时等效燃油消耗分别降低了8.5%和1.4%,并取得了与基于动态规划(dynamic programming, DP)算法的EMS相近的节能效果。所提改进PPO算法能有效提高HEV的燃油经济性,可为HEV的EMS设计与开发提供参考。 展开更多
关键词 车辆工程 混合动力汽车 能量管理策略 深度强化学习 策略优化
在线阅读 下载PDF
基于裁剪优化和策略指导的近端策略优化算法
10
作者 周毅 高华 田永谌 《计算机应用》 CSCD 北大核心 2024年第8期2334-2341,共8页
针对近端策略优化(PPO)算法难以严格约束新旧策略的差异和探索与利用效率较低这2个问题,提出一种基于裁剪优化和策略指导的PPO(COAPG-PPO)算法。首先,通过分析PPO的裁剪机制,设计基于Wasserstein距离的信任域裁剪方案,加强对新旧策略差... 针对近端策略优化(PPO)算法难以严格约束新旧策略的差异和探索与利用效率较低这2个问题,提出一种基于裁剪优化和策略指导的PPO(COAPG-PPO)算法。首先,通过分析PPO的裁剪机制,设计基于Wasserstein距离的信任域裁剪方案,加强对新旧策略差异的约束;其次,在策略更新过程中,融入模拟退火和贪心算法的思想,提升算法的探索效率和学习速度。为了验证所提算法的有效性,使用MuJoCo测试基准对COAPG-PPO与CO-PPO(PPO based on Clipping Optimization)、PPO-CMA(PPO with Covariance Matrix Adaptation)、TR-PPO-RB(Trust Region-based PPO with RollBack)和PPO算法进行对比实验。实验结果表明,COAPG-PPO算法在大多数环境中具有更严格的约束能力、更高的探索和利用效率,以及更高的奖励值。 展开更多
关键词 深度强化学习 策略优化 信任域约束 模拟退火 贪心算法
在线阅读 下载PDF
基于自注意力PPO算法的智能配电网多设备协同无功优化控制策略 被引量:3
11
作者 张黎元 宋兴旺 +3 位作者 李冰洁 梁睿 刘长德 彭奕洲 《智慧电力》 北大核心 2024年第10期40-48,共9页
针对智能配电网无功可调控资源多样化场景下的快速趋优难题,提出了一种基于多头自注意力近端策略优化算法的多设备协同无功优化控制方法。首先,将无功优化问题建模为马尔可夫决策过程;然后,在深度强化学习框架下使用多头自注意力改进近... 针对智能配电网无功可调控资源多样化场景下的快速趋优难题,提出了一种基于多头自注意力近端策略优化算法的多设备协同无功优化控制方法。首先,将无功优化问题建模为马尔可夫决策过程;然后,在深度强化学习框架下使用多头自注意力改进近端策略优化(PPO)算法对策略网络进行优化训练,算法采用多头自注意力网络获取配电网的实时状态特征,并通过剪切策略梯度法动态控制策略网络的更新幅度;最后,在改进IEEE69节点系统进行仿真验证。结果表明,所提算法的控制性能优于现有先进强化学习算法。 展开更多
关键词 配电网 分布式光伏 电压无功控制 多头自注意力 策略优化算法
在线阅读 下载PDF
基于优势函数输入扰动的多无人艇协同策略优化方法
12
作者 任璐 柯亚男 +2 位作者 柳文章 穆朝絮 孙长银 《自动化学报》 北大核心 2025年第4期824-834,共11页
多无人艇(Multiple unmanned surface vehicles,Multi-USVs)协同导航对于实现高效的海上作业至关重要,而如何在开放未知海域处理多艇之间复杂的协作关系、实现多艇自主协同决策是当前亟待解决的难题.近年来,多智能体强化学习(Multi-agen... 多无人艇(Multiple unmanned surface vehicles,Multi-USVs)协同导航对于实现高效的海上作业至关重要,而如何在开放未知海域处理多艇之间复杂的协作关系、实现多艇自主协同决策是当前亟待解决的难题.近年来,多智能体强化学习(Multi-agent reinforcement learning,MARL)在解决复杂的多体决策问题上展现出巨大的潜力,被广泛应用于多无人艇协同导航任务中.然而,这种基于数据驱动的方法通常存在探索效率低、探索与利用难平衡、易陷入局部最优等问题.因此,在集中训练和分散执行(Centralized training and decentralized execution,CTDE)框架的基础上,考虑从优势函数输入端注入扰动量来提升优势函数的泛化能力,提出一种新的基于优势函数输入扰动的多智能体近端策略优化(Noise-advantage multi-agent proximal policy optimization,NA-MAPPO)方法,从而提升多无人艇协同策略的探索效率.实验结果表明,与现有的基准算法相比,所提方法能够有效提升多无人艇协同导航任务的成功率,缩短策略的训练时间以及任务的完成时间,从而提升多无人艇协同探索效率,避免策略陷入局部最优. 展开更多
关键词 多无人艇协同 策略优化 多智能体强化学习 输入扰动
在线阅读 下载PDF
基于竞争式协同进化的混合变量粒子群优化算法 被引量:3
13
作者 张虎 张衡 +4 位作者 黄子路 王喆 付青坡 彭瑾 王峰 《系统仿真学报》 CAS CSCD 北大核心 2024年第4期844-858,共15页
现实工业生产应用中存在大量的混合变量优化问题,这类问题的决策变量既包含连续变量,又包含离散变量。由于决策变量为混合类型,导致问题的决策空间变得不规则,采用已有的方法很难进行有效求解。引入协同进化策略,提出一种基于竞争式协... 现实工业生产应用中存在大量的混合变量优化问题,这类问题的决策变量既包含连续变量,又包含离散变量。由于决策变量为混合类型,导致问题的决策空间变得不规则,采用已有的方法很难进行有效求解。引入协同进化策略,提出一种基于竞争式协同进化的混合变量粒子群优化算法(competitive coevolution based PSO,CCPSO)。设计基于容忍度的搜索方向调整机制来判断粒子的进化状态,从而自适应地调整粒子的搜索方向,避免陷入局部最优,平衡了种群的收敛性和多样性;引入基于竞争式协同进化的学习对象生成机制,在检测到粒子进化停滞时为每个粒子生成新的学习对象,从而推动粒子的进一步搜索,提高了种群的多样性;采用基于竞争学习的预测策略为粒子选择合适的学习对象,充分利用了新旧学习对象的学习潜力,保证了算法的收敛速度。实验结果表明:相比其他主流的混合变量优化算法,CCPSO可以获得更优的结果。 展开更多
关键词 混合变量优化 协同策略 进化算法 粒子群
在线阅读 下载PDF
基于混合近端策略优化的交叉口信号相位与配时优化方法 被引量:11
14
作者 陈喜群 朱奕璋 吕朝锋 《交通运输系统工程与信息》 EI CSCD 北大核心 2023年第1期106-113,共8页
交通信号优化控制是从供给侧缓解城市交通拥堵的重要手段,随着交通大数据技术的发展,利用深度强化学习进行信号控制成为重点研究方向。现有控制框架大多属于离散相位选择控制,相位时间通过决策间隔累积得到,可能与智能体探索更优动作相... 交通信号优化控制是从供给侧缓解城市交通拥堵的重要手段,随着交通大数据技术的发展,利用深度强化学习进行信号控制成为重点研究方向。现有控制框架大多属于离散相位选择控制,相位时间通过决策间隔累积得到,可能与智能体探索更优动作相冲突。为此,本文提出基于混合近端策略优化(Hybrid Proximal Policy Optimization,HPPO)的交叉口信号相位与配时优化方法。首先在考虑相位时间实际应用边界条件约束下,将信号控制动作定义为参数化动作;然后通过提取交通流状态信息并输入到双策略网络,自适应生成下一相位及其相位持续时间,并通过执行动作后的交通状态变化,评估获得奖励值,学习相位和相位时间之间的内在联系。搭建仿真平台,以真实交通流数据为输入对新方法进行测试与算法对比。结果表明:新方法与离散控制相比具有更低的决策频率和更优的控制效果,车辆平均行程时间和车道平均排队长度分别降低了27.65%和23.65%。 展开更多
关键词 智能交通 混合动作空间 深度强化学习 混合策略优化 智能体设计
在线阅读 下载PDF
基于生成对抗网络修正的源网荷储协同优化调度 被引量:1
15
作者 谢桦 李凯 +3 位作者 郄靖彪 张沛 王珍意 路学刚 《中国电机工程学报》 北大核心 2025年第5期1668-1679,I0003,共13页
大规模风光可再生能源发电并网给电力系统带来强不确定性,使得系统全局优化决策面临挑战,该文提出基于生成对抗网络(generative adversarial networks,GAN)修正的源网荷储协同优化调度策略设计方法。首先,考虑新型电力系统中各类可调节... 大规模风光可再生能源发电并网给电力系统带来强不确定性,使得系统全局优化决策面临挑战,该文提出基于生成对抗网络(generative adversarial networks,GAN)修正的源网荷储协同优化调度策略设计方法。首先,考虑新型电力系统中各类可调节资源的运行特性,构建基于近端策略优化(proximal policy optimization,PPO)算法的源网荷储协同优化调度模型;其次,引入GAN对PPO算法的优势函数进行修正,减少价值函数的方差,提高智能体探索效率;然后,GAN中的判别器结合专家策略指导生成器生成调度策略;最后,判别器与生成器不断对抗寻找纳什均衡点,得到优化调度策略。算例分析表明,设计的源网荷储协同的日内优化调度策略,采用GAN修正的PPO算法,相较于传统的PPO算法缩短了训练过程的收敛时间,在线控制提升了可再生能源消纳能力。 展开更多
关键词 源网荷储协同 生成对抗网络 策略优化算法 优化调度 可再生能源消纳
在线阅读 下载PDF
基于近端策略优化算法的新能源电力系统安全约束经济调度方法 被引量:21
16
作者 杨志学 任洲洋 +3 位作者 孙志媛 刘默斯 姜晶 印月 《电网技术》 EI CSCD 北大核心 2023年第3期988-997,共10页
针对高比例新能源接入导致电力系统安全约束经济调度难以高效求解的问题,该文提出了一种基于近端策略优化算法的安全约束经济调度方法。首先,建立了新能源电力系统安全约束经济调度模型。在深度强化学习框架下,定义了该模型的马尔科夫... 针对高比例新能源接入导致电力系统安全约束经济调度难以高效求解的问题,该文提出了一种基于近端策略优化算法的安全约束经济调度方法。首先,建立了新能源电力系统安全约束经济调度模型。在深度强化学习框架下,定义了该模型的马尔科夫奖励过程。设计了近端策略优化算法的奖励函数机制,引导智能体高效生成满足交流潮流以及N-1安全约束的调度计划。然后,设计了调度模型与近端策略优化算法的融合机制,建立了调度训练样本的生成与提取方法以及价值网络和策略网络的训练机制。最后,采用IEEE 30节点和IEEE 118节点2个标准测试系统,验证了本文提出方法的有效性和适应性。 展开更多
关键词 安全约束经济调度 深度强化学习 策略优化算法 新能源
在线阅读 下载PDF
一种基于深度强化学习的协同制导策略
17
作者 谭明虎 艾文洁 +2 位作者 何昊麟 李浩宇 王靖宇 《宇航学报》 北大核心 2025年第6期1203-1213,共11页
针对在速度不可控条件下的多弹协同打击问题,提出了一种基于深度强化学习的多弹协同制导策略生成方法。基于多智能体近端策略优化算法,通过构建连续动作空间的智能协同制导框架,设计了一种启发式重塑的奖励函数来引导多枚导弹有效协同... 针对在速度不可控条件下的多弹协同打击问题,提出了一种基于深度强化学习的多弹协同制导策略生成方法。基于多智能体近端策略优化算法,通过构建连续动作空间的智能协同制导框架,设计了一种启发式重塑的奖励函数来引导多枚导弹有效协同打击目标,以解决对制导环境因奖励信号稀疏导致的学习效率低下问题。最后,提出基于多阶段课程学习的智能体平滑动作方法,有效解决强化学习中由独立采样引起的动作抖动问题。仿真实验表明,在随机初始条件范围内,基于深度强化学习制导律生成的协同制导策略可以成功实现对目标的协同攻击。 展开更多
关键词 导弹 协同制导 深度强化学习 多智能体策略优化
在线阅读 下载PDF
基于改进PPO的HCSY-MG并网系统分布式混合储能充放电优化控制
18
作者 李锦键 王兴贵 丁颖杰 《电源学报》 北大核心 2025年第4期255-264,共10页
为平抑微源半桥变流器串联星型结构微电网HCSY-MG(half-bridge converter series Y-connection micro-grids)并网系统中微源出力的波动,保证各相直流侧电压之和相等,与并网电流三相平衡,提出1种基于改进近端策略优化PPO(proximal policy... 为平抑微源半桥变流器串联星型结构微电网HCSY-MG(half-bridge converter series Y-connection micro-grids)并网系统中微源出力的波动,保证各相直流侧电压之和相等,与并网电流三相平衡,提出1种基于改进近端策略优化PPO(proximal policy optimization)的分布式混合储能系统HESS(hybrid energy storage system)充、放电优化控制策略。在考虑HCSY-MG系统并网电流与分布式HESS特性的条件下,确定影响并网电流的主要系统变量,以及HESS接入系统的最佳拓扑结构。然后结合串联系统的特点,将分布式HESS的充、放电问题转换为深度强化学习的Markov决策过程。同时针对PPO算法中熵损失权重难以确定的问题,提出1种改进的PPO算法,兼顾智能体的收敛性和探索性。最后以某新能源发电基地的典型运行数据为算例,验证所提控制策略的可行性和有效性。 展开更多
关键词 串联微电网 分布式混合储能系统 策略优化 充放电功率 深度强化学习
在线阅读 下载PDF
信息年龄约束下的无人机数据采集能耗优化路径规划算法 被引量:3
19
作者 高思华 刘宝煜 +3 位作者 惠康华 徐伟峰 李军辉 赵炳阳 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第10期4024-4034,共11页
信息年龄(AoI)是评价无线传感器网络(WSN)数据时效性的重要指标,无人机辅助WSN数据采集过程中采用优化飞行轨迹、提升速度等运动策略保障卸载至基站的数据满足各节点AoI限制。然而,不合理的运动策略易导致无人机因飞行距离过长、速度过... 信息年龄(AoI)是评价无线传感器网络(WSN)数据时效性的重要指标,无人机辅助WSN数据采集过程中采用优化飞行轨迹、提升速度等运动策略保障卸载至基站的数据满足各节点AoI限制。然而,不合理的运动策略易导致无人机因飞行距离过长、速度过快产生非必要能耗,造成数据采集任务失败。针对该问题,该文首先提出信息年龄约束的无人机数据采集能耗优化路径规划问题并进行数学建模;其次,设计一种协同混合近端策略优化(CH-PPO)强化学习算法,同时规划无人机对传感器节点或基站的访问次序、悬停位置和飞行速度,在满足各传感器节点信息年龄约束的同时,最大限度地减少无人机能量消耗。再次,设计一种融合离散和连续策略的损失函数,增强CH-PPO算法动作的合理性,提升其训练效果。仿真实验结果显示,CH-PPO算法在无人机能量消耗以及影响该指标因素的比较中均优于对比的3种强化学习算法,并具有良好的收敛性、稳定性和鲁棒性。 展开更多
关键词 无线传感器网络 信息年龄约束 协同混合近端策略优化算法 无人机路径规划 深度强化学习
在线阅读 下载PDF
基于PPO算法的CIES低碳优化调度方法 被引量:2
20
作者 陈凡 吴凌霄 +2 位作者 王曼 吕干云 张小莲 《电力工程技术》 北大核心 2024年第6期88-99,共12页
阶梯式碳交易机制以及优化调度模型求解算法是进行园区综合能源系统(community integrated energy system,CIES)优化调度的重要因素,现有文献对这两个因素的考虑不够全面。为此,文中在考虑阶梯式碳交易机制的基础上,提出采用近端策略优... 阶梯式碳交易机制以及优化调度模型求解算法是进行园区综合能源系统(community integrated energy system,CIES)优化调度的重要因素,现有文献对这两个因素的考虑不够全面。为此,文中在考虑阶梯式碳交易机制的基础上,提出采用近端策略优化(proximal policy optimization,PPO)算法求解CIES低碳优化调度问题。该方法基于低碳优化调度模型搭建强化学习交互环境,利用设备状态参数及运行参数定义智能体的状态、动作空间及奖励函数,再通过离线训练获取可生成最优策略的智能体。算例分析结果表明,采用PPO算法得到的CIES低碳优化调度方法能够充分发挥阶梯式碳交易机制减少碳排放量和提高能源利用率方面的优势。 展开更多
关键词 园区综合能源系统(CIES) 优化调度 策略优化(PPO)算法 阶梯式碳交易机制 惩罚系数 碳排放
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部