期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于柔性行动器-评判器的园区综合能源系统运行优化 被引量:9
1
作者 朱振山 陈哲盛 盛明鼎 《高电压技术》 EI CAS CSCD 北大核心 2022年第12期4949-4958,共10页
面向综合能源系统运行优化问题,建立了包含燃气轮机、余热回收、有机朗肯循环、空气源热泵和综合需求响应模型的电-热-气园区综合能源系统模型,并在此基础上提出一种基于柔性行动器-评判器的运行优化方法。首先,搭建综合能源系统框架和... 面向综合能源系统运行优化问题,建立了包含燃气轮机、余热回收、有机朗肯循环、空气源热泵和综合需求响应模型的电-热-气园区综合能源系统模型,并在此基础上提出一种基于柔性行动器-评判器的运行优化方法。首先,搭建综合能源系统框架和设备模型,针对传统综合需求响应建模不精确问题,结合历史数据和门控循环单元建立了反映用户真实响应能力的神经网络模型并应用于能源定价场景。其次,以最小化系统购能成本和弃风弃光成本为目标,建立综合能源系统经济调度模型,并采用深度强化学习框架进行表述,设置了柔性行动器-评判器智能体与环境交互过程的动作空间、状态空间、奖励函数等,训练收敛后的模型可直接用于实时决策,无需再重新训练。仿真结果表明所提方法可以有效进行能量管理和能源定价优化,降低系统的综合运行成本。 展开更多
关键词 综合能源系统 柔性行动器-评判器 门控循环单元 综合需求响应 运行优化 新能源不确定性
在线阅读 下载PDF
基于柔性行动器–评判器深度强化学习的电–气综合能源系统优化调度 被引量:76
2
作者 乔骥 王新迎 +2 位作者 张擎 张东霞 蒲天骄 《中国电机工程学报》 EI CSCD 北大核心 2021年第3期819-832,共14页
多能流协同优化调度是实现综合能源系统高效经济运行的核心技术之一。面向电–气综合能源系统运行优化问题,提出一种基于柔性行动器-评判器框架的深度强化学习方法,通过智能体与能源系统的交互,自适应学习控制策略。该方法可实现多能流... 多能流协同优化调度是实现综合能源系统高效经济运行的核心技术之一。面向电–气综合能源系统运行优化问题,提出一种基于柔性行动器-评判器框架的深度强化学习方法,通过智能体与能源系统的交互,自适应学习控制策略。该方法可实现多能流系统的连续动作控制,且能够灵活处理风电、光伏、多能负荷等源荷不确定性问题,实现多场景下的电-气综合能源优化调度决策。首先,构建面向电-气综合能源系统调度的强化学习基本框架,介绍柔性行动器-评判器强化学习的基本原理;然后,构建与智能体交互的电-气综合能源系统环境模型,设计深度强化学习的动作与状态空间、奖励机制、神经网络结构、学习流程等关键环节;最后,针对2个电-气综合能源系统算例进行强化学习优化调度结果分析。 展开更多
关键词 -气综合能源系统 优化调度 不确定性源荷 深度强化学习 柔性行动器-评判器
在线阅读 下载PDF
基于SAC算法的多交叉口交通信号控制研究 被引量:3
3
作者 钱立军 宣亮 +1 位作者 陈健 陈晨 《天津大学学报(自然科学与工程技术版)》 EI CAS CSCD 北大核心 2024年第1期105-111,共7页
针对深度Q网络(deep Q-learning network,DQN)算法在解决多交叉口交通信号配时方案由于外部环境变化和内部参数波动导致效果不佳的问题,提出了基于柔性“行动器-评判器”(soft actor-critic,SAC)的交叉口交通信号控制方法,并设计了相应... 针对深度Q网络(deep Q-learning network,DQN)算法在解决多交叉口交通信号配时方案由于外部环境变化和内部参数波动导致效果不佳的问题,提出了基于柔性“行动器-评判器”(soft actor-critic,SAC)的交叉口交通信号控制方法,并设计了相应的系统采样策略和回报函数.与原采样策略相比,新采样策略将相邻智能体的策略信息加入到系统状态中,使当前智能体能够得到更多的交叉口交通分布和合作策略信息.与原回报函数相比,新回报函数中引入空间折扣因子,缩小了相邻智能体的观察和回报值,使当前智能体更加关注和改善当前交通状况.随后在此基础上分别应用DQN和SAC算法设计交通信号控制方法.Webster配时法是利用相位流量数据开发的一种基于周期的固定相位长度交通信号方法,与DQN和SAC算法相比,其优化目标是降低交叉口延迟时间,不考虑交叉口排队长度.在城市交通模拟软件(simulation of urban mobility,SUMO)中构建一个时变交通流交通网络,并在其中分别对基于DQN、SAC和Webster配时法的信号配时控制方法进行仿真测试.仿真结果表明:基于SAC算法的交通信号控制方法与基于DQN算法和Webster配时法的交通信号控制方法相比,能够显著减少交叉口排队长度和平均延迟时间,具体来说,车辆平均排队长度分别减少了17.8%和28.2%,平均延迟分别减少了26.8%和36.3%,说明所提出的方法具有更好的控制效果. 展开更多
关键词 智能交通 交通信号控制 信号交叉口 深度Q网络 柔性行动-评判
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部