虚拟电厂(virtual power plant,VPP)作为一种新型能源管理模式,将分布式能源资源进行智能化集成和优化,其对于促进可再生能源消纳、能源结构的优化和能源系统的绿色化具有重要意义。以多能虚拟电厂为研究对象,以实现能源区域消纳为研究...虚拟电厂(virtual power plant,VPP)作为一种新型能源管理模式,将分布式能源资源进行智能化集成和优化,其对于促进可再生能源消纳、能源结构的优化和能源系统的绿色化具有重要意义。以多能虚拟电厂为研究对象,以实现能源区域消纳为研究目的,提出了一种基于分层深度强化学习的多能虚拟电厂区域消纳优化调度方法。首先,提出了一种非直接多能虚拟电厂区域消纳运行框架,确保用户参与自主性的同时避免用户信息公开化。其次,基于多能耦合以及多时间尺度特性构建虚拟电厂内的联合交易机制,避免了因忽略能源传输特性导致的交易失败,实现跨能源类型的灵活匹配,在完成区域自消纳的同时提高自身收益。最后,提出基于分层深度强化学习的优化求解策略,以解决所提模型由于大规模状态动作空间以及稀疏奖励特性带来的求解难题。通过仿真算例验证了所提方法的有效性,表明所提虚拟电厂调度策略可以有效实现区域自消纳。展开更多
时间抽象是分层强化学习中的重要研究方向,而子目标是时间抽象形成的核心元素.目前,大部分分层强化学习需要人工给出子目标或设定子目标数量.然而,在很多情况下,这不仅需要大量的人工干预,而且所作设定未必适合对应场景,在动态环境未知...时间抽象是分层强化学习中的重要研究方向,而子目标是时间抽象形成的核心元素.目前,大部分分层强化学习需要人工给出子目标或设定子目标数量.然而,在很多情况下,这不仅需要大量的人工干预,而且所作设定未必适合对应场景,在动态环境未知的指导下,这一问题尤为突出.针对此,提出基于优化子目标数的Option-Critic算法(Option-Critic algorithm based on Sub-goal Quantity Optimization,OC-SQO),增加了智能体对环境的探索部分,通过与环境的简单交互,得到适用于应用场景的初始子目标数量估值,并在此基础上识别子目标,然后利用通过策略梯度生成对应的抽象,使用初态、内部策略和终止函数构成的三元组表示,以此进行训练,根据交互得到的抽象改变当前状态,不断迭代优化.OC-SQO算法可以在任意状态下开始执行,不要求预先指定子目标和参数,在执行过程中使用策略梯度生成内部策略、抽象间策略和终止函数,不需要提供内部奖赏信号,也无需获取子目标的情况,尽可能地减少了人工干预.实验验证了算法的有效性.展开更多
文摘虚拟电厂(virtual power plant,VPP)作为一种新型能源管理模式,将分布式能源资源进行智能化集成和优化,其对于促进可再生能源消纳、能源结构的优化和能源系统的绿色化具有重要意义。以多能虚拟电厂为研究对象,以实现能源区域消纳为研究目的,提出了一种基于分层深度强化学习的多能虚拟电厂区域消纳优化调度方法。首先,提出了一种非直接多能虚拟电厂区域消纳运行框架,确保用户参与自主性的同时避免用户信息公开化。其次,基于多能耦合以及多时间尺度特性构建虚拟电厂内的联合交易机制,避免了因忽略能源传输特性导致的交易失败,实现跨能源类型的灵活匹配,在完成区域自消纳的同时提高自身收益。最后,提出基于分层深度强化学习的优化求解策略,以解决所提模型由于大规模状态动作空间以及稀疏奖励特性带来的求解难题。通过仿真算例验证了所提方法的有效性,表明所提虚拟电厂调度策略可以有效实现区域自消纳。
文摘时间抽象是分层强化学习中的重要研究方向,而子目标是时间抽象形成的核心元素.目前,大部分分层强化学习需要人工给出子目标或设定子目标数量.然而,在很多情况下,这不仅需要大量的人工干预,而且所作设定未必适合对应场景,在动态环境未知的指导下,这一问题尤为突出.针对此,提出基于优化子目标数的Option-Critic算法(Option-Critic algorithm based on Sub-goal Quantity Optimization,OC-SQO),增加了智能体对环境的探索部分,通过与环境的简单交互,得到适用于应用场景的初始子目标数量估值,并在此基础上识别子目标,然后利用通过策略梯度生成对应的抽象,使用初态、内部策略和终止函数构成的三元组表示,以此进行训练,根据交互得到的抽象改变当前状态,不断迭代优化.OC-SQO算法可以在任意状态下开始执行,不要求预先指定子目标和参数,在执行过程中使用策略梯度生成内部策略、抽象间策略和终止函数,不需要提供内部奖赏信号,也无需获取子目标的情况,尽可能地减少了人工干预.实验验证了算法的有效性.