期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于高维协同软演员-评论家的多智能体自动发电控制
1
作者 柳丹 任建宇 +3 位作者 席磊 刘治洪 全悦 施宇 《南方电网技术》 北大核心 2025年第4期93-106,共14页
随着新能源渗透率不断提高,风光等新能源出力的强随机性导致电网频率不稳定及控制性能变差。为此,从自动发电控制角度探索一种多智能体强化学习方法,即高维协同软演员-评论家算法。所提算法通过在最大熵框架下鼓励智能体进行随机探索,... 随着新能源渗透率不断提高,风光等新能源出力的强随机性导致电网频率不稳定及控制性能变差。为此,从自动发电控制角度探索一种多智能体强化学习方法,即高维协同软演员-评论家算法。所提算法通过在最大熵框架下鼓励智能体进行随机探索,以解决Q学习及其衍生算法无法快速更新Q表以适应环境变化的问题。同时利用高斯分布策略生成连续动作值,使算法可在高维连续状态空间中寻找协同最优解,以解决传统强化学习高维“状态-动作”的维数灾问题,从而来有效应对新能源出力强随机性所导致的频率不稳定及控制性能变差的问题。通过在改进的IEEE标准两区域负荷频率控制模型及华中三区域负荷频率控制模型上的仿真实验,验证了该算法的有效性,且相较于其他算法,具有更优的控制性能及频率稳定性。 展开更多
关键词 自动发电控制 高维协同 软演员-评论家 多智能体 高斯分布
在线阅读 下载PDF
基于状态-响应框架的有源配电网运行优化策略
2
作者 胡柳君 董红 +3 位作者 曾繁宏 张军 张勇军 高毓群 《南方电网技术》 北大核心 2025年第6期62-71,共10页
为提高配电网的运行效率和电压质量,结合深度强化学习和分布式广义快速对偶上升(SAC-GFD)算法,提出了一种基于状态-响应框架的优化策略。首先,利用软演员-评论家(soft actor-critic,SAC)算法将配电网运行优化问题建模为马尔可夫决策过程... 为提高配电网的运行效率和电压质量,结合深度强化学习和分布式广义快速对偶上升(SAC-GFD)算法,提出了一种基于状态-响应框架的优化策略。首先,利用软演员-评论家(soft actor-critic,SAC)算法将配电网运行优化问题建模为马尔可夫决策过程,智能体在含有可再生能源波动和负荷不确定性的环境中进行交互与探索,获得对不确定性环境具有鲁棒性控制策略。将配电网运行优化问题转化为马尔可夫决策过程,从而训练出能够快速输出配电网设备最优有功功率和无功功率的智能体。其次,计算当前配电网的潮流分布、节点电压状态以及有功功率和无功-电压灵敏度矩阵。然后,用户基于当前配电网状态,采用分布式方法计算自身负荷的最优调整值,确保配电网的安全运行。最后,在IEEE 33节点系统上的仿真结果表明,相较于传统的深度强化学习算法,所提算法能更有效地降低网络损耗和节点电压偏差,且具有更快的训练速度和更好的优化结果。 展开更多
关键词 状态-响应 深度强化学习 软演员-评论家 广义快速对偶上升法 有源配电网
在线阅读 下载PDF
基于SAC的炼厂原油储运调度方法 被引量:1
3
作者 马楠 李洪奇 +1 位作者 刘华林 杨磊 《化工进展》 EI CAS CSCD 北大核心 2024年第3期1167-1177,共11页
目前对于炼厂原油储运调度决策的研究大多采用基于数学规划的静态调度方案,求解时间较长并且无法针对环境的变化进行实时高效的储运调度优化。为此,本文结合深度强化学习算法建立了考虑炼厂生产约束的原油资源储运动态实时调度决策算法... 目前对于炼厂原油储运调度决策的研究大多采用基于数学规划的静态调度方案,求解时间较长并且无法针对环境的变化进行实时高效的储运调度优化。为此,本文结合深度强化学习算法建立了考虑炼厂生产约束的原油资源储运动态实时调度决策算法。该算法首先将炼厂原油资源调度问题转换为马尔可夫决策过程,其次提出了一种基于软演员-评论家(soft actor-critic,SAC)的深度强化学习算法来同时确定调度过程中的传输目标等离散决策以及传输速度等连续决策。结果表明,算法学习到的策略可行性较好,与基线算法相比,油轮在港时间、调度方案事件数量、加工计划执行率等重要指标方面均得到了较好的效果,在求解时间方面大幅提升至毫秒级,并有效控制随机事件对整体决策的影响范围。该算法可为沿海炼厂原油储运调度快速决策提供新的思路。 展开更多
关键词 炼厂原油储运 资源调度 深度强化学习 软演员-评论家
在线阅读 下载PDF
基于双智能体深度强化学习的交直流配电网经济调度方法 被引量:7
4
作者 赵倩宇 韩照洋 +3 位作者 王守相 尹孜阳 董逸超 钱广超 《天津大学学报(自然科学与工程技术版)》 EI CAS CSCD 北大核心 2024年第6期624-632,共9页
随着大量直流电源和负荷的接入,交直流混合的配电网技术已成为未来配电网的发展趋势.然而,源荷不确定性及可调度设备的类型多样化给配电网调度带来了巨大的挑战.本文提出了基于分支决斗深度强化网络(branching dueling Q-network,BDQ)... 随着大量直流电源和负荷的接入,交直流混合的配电网技术已成为未来配电网的发展趋势.然而,源荷不确定性及可调度设备的类型多样化给配电网调度带来了巨大的挑战.本文提出了基于分支决斗深度强化网络(branching dueling Q-network,BDQ)和软演员-评论家(soft actor critic,SAC)双智能体深度强化学习的交直流配电网调度方法.该方法首先将经济调度问题与两智能体的动作、奖励、状态相结合,建立经济调度的马尔可夫决策过程,并分别基于BDQ和SAC方法设置两个智能体,其中,BDQ智能体用于控制配电网中离散动作设备,SAC智能体用于控制连续动作设备.然后,通过集中训练分散执行的方式,两智能体与环境进行交互,进行离线训练.最后,固定智能体的参数,进行在线调度.该方法的优势在于采用双智能体能够同时控制离散动作设备电容器组、载调压变压器和连续动作设备变流器、储能,同时通过对双智能体的集中训练,可以自适应源荷的不确定性.改进的IEEE33节点交直流配电网算例测试验证了所提方法的有效性. 展开更多
关键词 交直流配电网 深度强化学习 经济调度 分支决斗深度强化网络 软演员-评论家
在线阅读 下载PDF
基于强化学习的电磁悬浮型磁浮列车悬浮控制 被引量:3
5
作者 胡轲珽 徐俊起 +1 位作者 刘志刚 林国斌 《同济大学学报(自然科学版)》 EI CAS CSCD 北大核心 2023年第3期332-340,共9页
为了保证磁浮列车的安全、可靠运行,研究了悬浮系统在参数摄动条件下的悬浮控制问题。首先,对电磁悬浮(EMS)型磁浮列车的基本悬浮单元建模,给出了电流控制模型;然后,建立了悬浮系统的强化学习环境以及软演员-评论家(SAC)智能体,并设计... 为了保证磁浮列车的安全、可靠运行,研究了悬浮系统在参数摄动条件下的悬浮控制问题。首先,对电磁悬浮(EMS)型磁浮列车的基本悬浮单元建模,给出了电流控制模型;然后,建立了悬浮系统的强化学习环境以及软演员-评论家(SAC)智能体,并设计了加速训练的奖励函数与“吸死”处理方案;最后,提出了基于强化学习的悬浮控制方法。与传统比例-积分-微分(PID)控制方法的对比结果表明,本方法具有更快的动态响应,在损失50%线圈匝数或磁极面积变化时具有更好的跟踪精度。 展开更多
关键词 电磁悬浮(EMS)型磁浮列车 悬浮控制 强化学习控制 软演员-评论家(SAC)智能体 奖励函数设计
在线阅读 下载PDF
一种平衡探索和利用的优先经验回放方法 被引量:2
6
作者 张佳能 李辉 +1 位作者 吴昊霖 王壮 《计算机科学》 CSCD 北大核心 2022年第5期179-185,共7页
经验回放方法可以重用过去的经验来更新目标策略,提高样本的利用率,已经成为深度强化学习的一个重要组成部分。优先经验回放在经验回放的基础上进行选择性采样,期望更好地利用经验样本。但目前的优先经验回放方式会降低从经验缓冲池采... 经验回放方法可以重用过去的经验来更新目标策略,提高样本的利用率,已经成为深度强化学习的一个重要组成部分。优先经验回放在经验回放的基础上进行选择性采样,期望更好地利用经验样本。但目前的优先经验回放方式会降低从经验缓冲池采样的样本的多样性,使神经网络收敛于局部最优。针对上述问题,提出了一种平衡探索和利用的优先经验回放方法(Exploration and Exploitation Balanced Experience Replay,E3R)。该方法可以综合考虑样本的探索效用和利用效用,根据当前状态和过去状态的相似性程度以及同一状态下行为策略和目标策略采取动作的相似性程度来对样本进行采样。此外,将E3R分别与策略梯度类算法软演员-评论家算法、值函数类算法深度Q网络算法相结合,并在相应的OpenAI gym环境下进行实验。实验结果表明,相比传统随机采样和时序差分优先采样,E3R可以获得更快的收敛速度和更高的累计回报。 展开更多
关键词 强化学习 经验回放 优先采样 利用 探索 软演员-评论家算法
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部