期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于分层深度强化学习的多能虚拟电厂区域消纳优化策略
1
作者 张宁 杨凌霄 +2 位作者 李炫浓 胡存刚 孙秋野 《电力系统保护与控制》 北大核心 2025年第20期153-163,共11页
虚拟电厂(virtual power plant,VPP)作为一种新型能源管理模式,将分布式能源资源进行智能化集成和优化,其对于促进可再生能源消纳、能源结构的优化和能源系统的绿色化具有重要意义。以多能虚拟电厂为研究对象,以实现能源区域消纳为研究... 虚拟电厂(virtual power plant,VPP)作为一种新型能源管理模式,将分布式能源资源进行智能化集成和优化,其对于促进可再生能源消纳、能源结构的优化和能源系统的绿色化具有重要意义。以多能虚拟电厂为研究对象,以实现能源区域消纳为研究目的,提出了一种基于分层深度强化学习的多能虚拟电厂区域消纳优化调度方法。首先,提出了一种非直接多能虚拟电厂区域消纳运行框架,确保用户参与自主性的同时避免用户信息公开化。其次,基于多能耦合以及多时间尺度特性构建虚拟电厂内的联合交易机制,避免了因忽略能源传输特性导致的交易失败,实现跨能源类型的灵活匹配,在完成区域自消纳的同时提高自身收益。最后,提出基于分层深度强化学习的优化求解策略,以解决所提模型由于大规模状态动作空间以及稀疏奖励特性带来的求解难题。通过仿真算例验证了所提方法的有效性,表明所提虚拟电厂调度策略可以有效实现区域自消纳。 展开更多
关键词 虚拟电厂 多能交易 多时间尺度 分层深度强化学习
在线阅读 下载PDF
深度分层强化学习研究与发展 被引量:9
2
作者 黄志刚 刘全 +2 位作者 张立华 曹家庆 朱斐 《软件学报》 EI CSCD 北大核心 2023年第2期733-760,共28页
深度分层强化学习是深度强化学习领域的一个重要研究方向,它重点关注经典深度强化学习难以解决的稀疏奖励、顺序决策和弱迁移能力等问题.其核心思想在于:根据分层思想构建具有多层结构的强化学习策略,运用时序抽象表达方法组合时间细粒... 深度分层强化学习是深度强化学习领域的一个重要研究方向,它重点关注经典深度强化学习难以解决的稀疏奖励、顺序决策和弱迁移能力等问题.其核心思想在于:根据分层思想构建具有多层结构的强化学习策略,运用时序抽象表达方法组合时间细粒度的下层动作,学习时间粗粒度的、有语义的上层动作,将复杂问题分解为数个简单问题进行求解.近年来,随着研究的深入,深度分层强化学习方法已经取得了实质性的突破,且被应用于视觉导航、自然语言处理、推荐系统和视频描述生成等生活领域.首先介绍了分层强化学习的理论基础;然后描述了深度分层强化学习的核心技术,包括分层抽象技术和常用实验环境;详细分析了基于技能的深度分层强化学习框架和基于子目标的深度分层强化学习框架,对比了各类算法的研究现状和发展趋势;接下来介绍了深度分层强化学习在多个现实生活领域中的应用;最后,对深度分层强化学习进行了展望和总结. 展开更多
关键词 人工智能 强化学习 深度强化学习 半马尔可夫决策过程 深度分层强化学习
在线阅读 下载PDF
基于改进H-AC算法的冷源系统节能优化控制策略 被引量:1
3
作者 周璇 莫浩华 闫军威 《华南理工大学学报(自然科学版)》 北大核心 2025年第1期21-31,共11页
中央空调冷源设备台数与运行参数的优化是一类离散与连续变量的协同优化问题,而经典强化学习算法难以优化此类问题。为此,该文提出了一种结合选项-评论者与演员-评论者框架的中央空调冷源系统节能优化控制策略。首先,采用分层演员-评论... 中央空调冷源设备台数与运行参数的优化是一类离散与连续变量的协同优化问题,而经典强化学习算法难以优化此类问题。为此,该文提出了一种结合选项-评论者与演员-评论者框架的中央空调冷源系统节能优化控制策略。首先,采用分层演员-评论者(H-AC)算法分层优化设备台数与运行参数,且高层和底层模型共用Q网络评估状态价值,以解决多时间尺度下的优化难题;然后,在智能体架构、策略与网络更新方式等方面对H-AC算法进行改进,以加速智能体的收敛;最后,以夏热冬暖地区某科研办公建筑中央空调冷源系统为研究对象,基于冷源系统TRNSYS仿真平台进行实验。结果表明:在平均室内舒适时间占比分别增加14.08、11.23、29.70、9.07个百分比的前提下,基于改进H-AC算法的系统能耗分别比其他4种常规深度强化学习算法减少了32.28%、28.55%、28.63%、11.53%;虽然基于改进H-AC算法的系统能耗比基于选项-评论者框架的算法增加了0.27%,但获得了更平稳的学习过程且平均室内舒适时间占比增加了4.8个百分点。该文算法可为各类建筑中央空调冷源系统节能优化提供有效的技术手段,助力建筑“双碳”目标的实现。 展开更多
关键词 冷源系统 TRNSYS仿真平台 深度分层强化学习 选项-评论者框架 协同优化
在线阅读 下载PDF
基于优化子目标数的Option-Critic算法 被引量:3
4
作者 刘成浩 朱斐 刘全 《计算机学报》 EI CAS CSCD 北大核心 2021年第9期1922-1933,共12页
时间抽象是分层强化学习中的重要研究方向,而子目标是时间抽象形成的核心元素.目前,大部分分层强化学习需要人工给出子目标或设定子目标数量.然而,在很多情况下,这不仅需要大量的人工干预,而且所作设定未必适合对应场景,在动态环境未知... 时间抽象是分层强化学习中的重要研究方向,而子目标是时间抽象形成的核心元素.目前,大部分分层强化学习需要人工给出子目标或设定子目标数量.然而,在很多情况下,这不仅需要大量的人工干预,而且所作设定未必适合对应场景,在动态环境未知的指导下,这一问题尤为突出.针对此,提出基于优化子目标数的Option-Critic算法(Option-Critic algorithm based on Sub-goal Quantity Optimization,OC-SQO),增加了智能体对环境的探索部分,通过与环境的简单交互,得到适用于应用场景的初始子目标数量估值,并在此基础上识别子目标,然后利用通过策略梯度生成对应的抽象,使用初态、内部策略和终止函数构成的三元组表示,以此进行训练,根据交互得到的抽象改变当前状态,不断迭代优化.OC-SQO算法可以在任意状态下开始执行,不要求预先指定子目标和参数,在执行过程中使用策略梯度生成内部策略、抽象间策略和终止函数,不需要提供内部奖赏信号,也无需获取子目标的情况,尽可能地减少了人工干预.实验验证了算法的有效性. 展开更多
关键词 分层深度强化学习 时间抽象 子目标 强化学习 OPTION
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部