针对DRL算法在热电联产(combined heat and power,CHP)机组优化中缺乏安全性和稳定性保证的问题,提出了一种基于安全强化学习(SRL)的调度优化方法。在Dymola平台以CHP机组为热源建立了区域供热系统模型。设计了CHP机组经济调度的MDP模型...针对DRL算法在热电联产(combined heat and power,CHP)机组优化中缺乏安全性和稳定性保证的问题,提出了一种基于安全强化学习(SRL)的调度优化方法。在Dymola平台以CHP机组为热源建立了区域供热系统模型。设计了CHP机组经济调度的MDP模型,并通过控制障碍函数(control barrier functions,CBF)指导DRL安全探索。仿真结果表明:CBF-DRL方法在复杂且非线性的区域供热系统中,不仅能够提升DRL算法的收敛速度,还能够有效利用供热管道的热惯性提高CHP机组的经济效益,并在安全性方面表现出优势。展开更多