-
题名增强型深度强化学习方法应用于化工过程控制
- 1
-
-
作者
张佳鑫
董立春
-
机构
重庆大学化学化工学院
-
出处
《化工进展》
北大核心
2025年第10期5563-5569,共7页
-
基金
国家自然科学基金面上项目(22108019)。
-
文摘
深度强化学习(DRL)算法因其无须依赖历史数据和先验知识,仅通过环境与智能体的互动即可实现策略优化和自主学习,在工业过程控制领域表现出良好的应用前景。其中,基于双延迟深度确定性策略梯度(TD3)算法的控制策略可有效克服深度确定性策略梯度(DDPG)模型中Q值易被高估,导致次优策略和鲁棒性不佳的缺陷,成为目前最领先的基于深度强化学习的控制模型。然而,原始TD3方法在应用于具有较显著策略波动的工业过程控制时仍显示出局限性,特别是其Q值低估问题会导致模型控制性能不佳。为了解决这些限制,本文提出了一种适用于工业过程控制的增强型TD3控制模型(ETD3),该模型首先建立评估指标来判断行动者(Actor)网络参数的高估或低估情况,并根据评估结果调整输入到批评家(Critic)网络的损失函数。然后,通过替换原始TD3中的固定学习率为三角衰减周期学习率,以提升模型的训练收敛性和控制性能。本文最后通过将增强型TD3算法应用于工业天然气脱水过程的控制过程验证了其有效性。
-
关键词
过程控制
深度强化学习
双延时深度确定性策略梯度
三角衰减周期
-
Keywords
process control
deep reinforcement learning
twin delayed deep deterministic policy gradient(TD 3)model
triangular decay cycle
-
分类号
TP3-05
[自动化与计算机技术—计算机科学与技术]
-