期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
基于柔性行动器-评判器的园区综合能源系统运行优化 被引量:11
1
作者 朱振山 陈哲盛 盛明鼎 《高电压技术》 EI CAS CSCD 北大核心 2022年第12期4949-4958,共10页
面向综合能源系统运行优化问题,建立了包含燃气轮机、余热回收、有机朗肯循环、空气源热泵和综合需求响应模型的电-热-气园区综合能源系统模型,并在此基础上提出一种基于柔性行动器-评判器的运行优化方法。首先,搭建综合能源系统框架和... 面向综合能源系统运行优化问题,建立了包含燃气轮机、余热回收、有机朗肯循环、空气源热泵和综合需求响应模型的电-热-气园区综合能源系统模型,并在此基础上提出一种基于柔性行动器-评判器的运行优化方法。首先,搭建综合能源系统框架和设备模型,针对传统综合需求响应建模不精确问题,结合历史数据和门控循环单元建立了反映用户真实响应能力的神经网络模型并应用于能源定价场景。其次,以最小化系统购能成本和弃风弃光成本为目标,建立综合能源系统经济调度模型,并采用深度强化学习框架进行表述,设置了柔性行动器-评判器智能体与环境交互过程的动作空间、状态空间、奖励函数等,训练收敛后的模型可直接用于实时决策,无需再重新训练。仿真结果表明所提方法可以有效进行能量管理和能源定价优化,降低系统的综合运行成本。 展开更多
关键词 综合能源系统 柔性行动-评判 门控循环单元 综合需求响应 运行优化 新能源不确定性
在线阅读 下载PDF
基于柔性行动器–评判器深度强化学习的电–气综合能源系统优化调度 被引量:80
2
作者 乔骥 王新迎 +2 位作者 张擎 张东霞 蒲天骄 《中国电机工程学报》 EI CSCD 北大核心 2021年第3期819-832,共14页
多能流协同优化调度是实现综合能源系统高效经济运行的核心技术之一。面向电–气综合能源系统运行优化问题,提出一种基于柔性行动器-评判器框架的深度强化学习方法,通过智能体与能源系统的交互,自适应学习控制策略。该方法可实现多能流... 多能流协同优化调度是实现综合能源系统高效经济运行的核心技术之一。面向电–气综合能源系统运行优化问题,提出一种基于柔性行动器-评判器框架的深度强化学习方法,通过智能体与能源系统的交互,自适应学习控制策略。该方法可实现多能流系统的连续动作控制,且能够灵活处理风电、光伏、多能负荷等源荷不确定性问题,实现多场景下的电-气综合能源优化调度决策。首先,构建面向电-气综合能源系统调度的强化学习基本框架,介绍柔性行动器-评判器强化学习的基本原理;然后,构建与智能体交互的电-气综合能源系统环境模型,设计深度强化学习的动作与状态空间、奖励机制、神经网络结构、学习流程等关键环节;最后,针对2个电-气综合能源系统算例进行强化学习优化调度结果分析。 展开更多
关键词 -气综合能源系统 优化调度 不确定性源荷 深度强化学习 柔性行动-评判
在线阅读 下载PDF
一种采用模型学习和经验回放加速的正则化自然行动器评判器算法 被引量:4
3
作者 钟珊 刘全 +2 位作者 傅启明 龚声蓉 董虎胜 《计算机学报》 EI CSCD 北大核心 2019年第3期532-553,共22页
行动器评判器(Actor Critic,简称AC)算法是强化学习连续动作领域的一类重要算法,其采用独立的结构表示策略,但更新策略时需要大量样本导致样本效率不高.为了解决该问题,提出了基于模型学习和经验回放加速的正则化自然AC算法(Regularized... 行动器评判器(Actor Critic,简称AC)算法是强化学习连续动作领域的一类重要算法,其采用独立的结构表示策略,但更新策略时需要大量样本导致样本效率不高.为了解决该问题,提出了基于模型学习和经验回放加速的正则化自然AC算法(Regularized Natural AC with Model Learning and Experience Replay,简称RNAC-ML-ER).RNAC-ML-ER将Agent与环境在线交互产生的样本用于学习系统动态性对应的线性模型和填充经验回放存储器.将线性模型产生的模拟样本和经验回放存储器中存储的样本作为在线样本的补充,实现值函数、优势函数和策略的更新.为了提高更新的效率,在每个时间步,仅当模型的预测误差未超过阈值时才利用该模型进行规划,同时根据TD-error从大到小的顺序对经验回放存储器中的样本进行回放.为了降低策略梯度估计的方差,引入优势函数参数向量对优势函数进行线性近似,在优势函数的目标函数中加入2-范数进行正则化,并通过优势函数参数向量来对策略梯度更新,以促进优势函数和策略的收敛.在指定的两个假设成立的条件下,通过理论分析证明了所提算法RNAC-ML-ER的收敛性.在4个强化学习的经典问题即平衡杆、小车上山、倒立摆和体操机器人中对RNACML-ER算法进行实验,结果表明所提算法能在大幅提高样本效率和学习速率的同时保持较高的稳定性. 展开更多
关键词 行动评判算法 模型学习 经验回放 最优策略 正则化 自然梯度
在线阅读 下载PDF
考虑静止同步串联补偿器的可用输电能力研究 被引量:1
4
作者 方婷婷 冯怀玉 +1 位作者 邢晓哲 韩芳 《广东电力》 2011年第1期10-15,共6页
基于静止同步串联补偿器(static synchronous series compensator,SSSC)建立了可用输电能力计算的最优潮流模型,并在模型中引入了SSSC的功率注入模型进行优化,采用原-对偶内点法对优化后的模型进行求解,根据特征结构分析法确定SSSC的最... 基于静止同步串联补偿器(static synchronous series compensator,SSSC)建立了可用输电能力计算的最优潮流模型,并在模型中引入了SSSC的功率注入模型进行优化,采用原-对偶内点法对优化后的模型进行求解,根据特征结构分析法确定SSSC的最佳安装位置。利用IEEE30节点系统进行仿真分析,结果验证了该方法的有效性,说明在电力系统的薄弱线路上配置SSSC,可以有效地提高系统的可用输电能力。 展开更多
关键词 可用输电能力 柔性交流输电系统 静止同步串联补偿 特征结构分析法 -对偶内点法
在线阅读 下载PDF
基于多估计器平均值的深度确定性策略梯度算法 被引量:2
5
作者 李琳 李玉泽 +1 位作者 张钰嘉 魏巍 《郑州大学学报(工学版)》 CAS 北大核心 2022年第2期15-21,共7页
为了解决强化学习行动者-评论家框架下双延迟深度确定性策略梯度算法的低估计问题,提出了一种基于多估计器平均值的深度确定性策略梯度(DDPG-MME)算法。基于多估计器平均值的确定性策略梯度算法包含一个行动者和k(k>3)个评论家,该算... 为了解决强化学习行动者-评论家框架下双延迟深度确定性策略梯度算法的低估计问题,提出了一种基于多估计器平均值的深度确定性策略梯度(DDPG-MME)算法。基于多估计器平均值的确定性策略梯度算法包含一个行动者和k(k>3)个评论家,该算法首先计算2个评论家输出值的最小值和剩余(k-2)个评论家输出值的平均值,再取两者的平均值作为最终值来计算TD误差,最后根据TD误差来更新评论家网络,行动者网络则根据第1个评论家输出的值进行更新。DDPG-MME算法的加权操作缓解了双延迟深度确定性策略梯度算法的低估计问题,并在一定程度上降低了估计方差,实现了更准确的Q值估计。在理论上对基于多估计器平均值的确定性策略梯度算法、深度确定性策略梯度算法和双延迟深度确定性策略梯度算法估值误差的期望和方差进行分析,证明了所提算法估值的准确性和稳定性。在Reacher-v2、HalfCheetah-v2、InvertedPendulum-v2和InvertedDoublePendulum-v24个MuJoCo连续控制环境下对算法的性能进行测试,结果表明:在与对比算法相同的超参数(网络结构、奖励函数、环境参数、批次大小、学习率、优化器和折扣系数)设置下,所提算法的最终性能和稳定性均显著优于对比算法。 展开更多
关键词 强化学习 行动-评论家 低估计 多估计 策略梯度
在线阅读 下载PDF
基于阶段诱导学习的多无人艇协同目标围捕策略
6
作者 曲星儒 江雨泽 +2 位作者 龙飞飞 张汝波 高颖 《中国舰船研究》 北大核心 2025年第1期162-171,共10页
[目的]针对海上目标无人艇智能逃逸问题,提出一种基于阶段诱导学习的多无人艇协同目标围捕策略。[方法]首先构建针对无人艇围捕逃逸的马尔科夫博弈模型,明确基于距离和角度的围捕成功判定条件。为提升智能逃逸下多无人艇的目标围捕性能... [目的]针对海上目标无人艇智能逃逸问题,提出一种基于阶段诱导学习的多无人艇协同目标围捕策略。[方法]首先构建针对无人艇围捕逃逸的马尔科夫博弈模型,明确基于距离和角度的围捕成功判定条件。为提升智能逃逸下多无人艇的目标围捕性能,采用集中式训练-分布式执行框架和长短时记忆网络相结合的方法,基于多智能体柔性行动-评判(MASAC)算法开展协同围捕训练。同时,设计基于阶段诱导的协同围捕奖励机制,依据双方当前状态来优化训练进程,避免“惰性围捕艇”现象,提高围捕成功率,引导无人艇由易到难地完成围捕任务。[结果]仿真结果表明,与仅采用阶段诱导奖励的MASAC、仅采用长短时记忆网络的MASAC和MASAC围捕策略相比,所提策略的围捕成功率分别提高3.3%,6.1%和24.4%,验证了其可行性和有效性。[结论]所提策略为无人艇攻防对抗提供了有价值的技术参考,有助于推动无人艇技术在相关领域的应用与发展。 展开更多
关键词 无人艇 协同目标围捕 多智能体柔性行动-评判 阶段诱导奖励
在线阅读 下载PDF
加载柔性臂振动的非线性应力反馈控制 被引量:2
7
作者 张献文 韩京清 《系统仿真学报》 CAS CSCD 2000年第2期168-171,共4页
用数值仿真的方法讨论了一种用新型的非线性应力反馈律来镇定加载柔性臂振动的问题。该方法使用跟踪微分器取得柔性臂根部应力信号的微分信号,并与根部应力信号一起组成非线性控制输入来控制加载柔性臂的振动.其镇定效果明显地优于有关... 用数值仿真的方法讨论了一种用新型的非线性应力反馈律来镇定加载柔性臂振动的问题。该方法使用跟踪微分器取得柔性臂根部应力信号的微分信号,并与根部应力信号一起组成非线性控制输入来控制加载柔性臂的振动.其镇定效果明显地优于有关问题的现有实验结果。 展开更多
关键词 柔性 弯曲振动 跟踪-微分 反馈控制 应力
在线阅读 下载PDF
基于SAC算法的多交叉口交通信号控制研究 被引量:3
8
作者 钱立军 宣亮 +1 位作者 陈健 陈晨 《天津大学学报(自然科学与工程技术版)》 EI CAS CSCD 北大核心 2024年第1期105-111,共7页
针对深度Q网络(deep Q-learning network,DQN)算法在解决多交叉口交通信号配时方案由于外部环境变化和内部参数波动导致效果不佳的问题,提出了基于柔性“行动器-评判器”(soft actor-critic,SAC)的交叉口交通信号控制方法,并设计了相应... 针对深度Q网络(deep Q-learning network,DQN)算法在解决多交叉口交通信号配时方案由于外部环境变化和内部参数波动导致效果不佳的问题,提出了基于柔性“行动器-评判器”(soft actor-critic,SAC)的交叉口交通信号控制方法,并设计了相应的系统采样策略和回报函数.与原采样策略相比,新采样策略将相邻智能体的策略信息加入到系统状态中,使当前智能体能够得到更多的交叉口交通分布和合作策略信息.与原回报函数相比,新回报函数中引入空间折扣因子,缩小了相邻智能体的观察和回报值,使当前智能体更加关注和改善当前交通状况.随后在此基础上分别应用DQN和SAC算法设计交通信号控制方法.Webster配时法是利用相位流量数据开发的一种基于周期的固定相位长度交通信号方法,与DQN和SAC算法相比,其优化目标是降低交叉口延迟时间,不考虑交叉口排队长度.在城市交通模拟软件(simulation of urban mobility,SUMO)中构建一个时变交通流交通网络,并在其中分别对基于DQN、SAC和Webster配时法的信号配时控制方法进行仿真测试.仿真结果表明:基于SAC算法的交通信号控制方法与基于DQN算法和Webster配时法的交通信号控制方法相比,能够显著减少交叉口排队长度和平均延迟时间,具体来说,车辆平均排队长度分别减少了17.8%和28.2%,平均延迟分别减少了26.8%和36.3%,说明所提出的方法具有更好的控制效果. 展开更多
关键词 智能交通 交通信号控制 信号交叉口 深度Q网络 柔性“行动器-评判器”
在线阅读 下载PDF
计及高渗透率光伏消纳与深度强化学习的综合能源系统预测调控 被引量:8
9
作者 陈明昊 朱月瑶 +2 位作者 孙毅 谢志远 吴鹏 《电工技术学报》 EI CSCD 北大核心 2024年第19期6054-6071,6103,共19页
深度强化学习(DRL)是支撑园区综合能源系统(PIES)自适应调控其多能转换与存储设备,以消纳光伏发电及满足用户多能需求的重要技术。然而,DRL智能体通常利用其与PIES的实时环境-动作交互来调控其设备运行状态,难以在高渗透率光伏场景下考... 深度强化学习(DRL)是支撑园区综合能源系统(PIES)自适应调控其多能转换与存储设备,以消纳光伏发电及满足用户多能需求的重要技术。然而,DRL智能体通常利用其与PIES的实时环境-动作交互来调控其设备运行状态,难以在高渗透率光伏场景下考虑尖峰光伏发电并预留充足的储能资源。基于模型预测控制理论,该文提出了一种基于DRL与光伏发电区间预测的PIES优化调控方法。该方法面向电-气-热园区综合能源系统,利用时序卷积网络与核密度估计得到光伏发电区间预测结果,并采用柔性Actor-Critic(SAC)算法构建PIES预测优化调控模型。该模型将光伏发电预测区间构建为SAC智能体状态空间,通过迭代试错训练获得PIES多能存储与转换的动态调节策略,从而优化光伏消纳率和运行成本。仿真实验表明,所提方法通过动态调节电、气、热三种能源转换设备的运行功率和预留三种储能设备的储能量,可有效提升PIES在高渗透率光伏场景下的消纳率,优化其运行经济效益。 展开更多
关键词 综合能源系统 深度强化学习 柔性“行动-判别器” 时序卷积网络 模型预测控制
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部