-
题名基于二阶价值梯度模型强化学习的工业过程控制方法
被引量:1
- 1
-
-
作者
张博
潘福成
周晓锋
李帅
-
机构
中国科学院网络化控制系统重点实验室
中国科学院沈阳自动化研究所
中国科学院机器人与智能制造创新研究院
中国科学院大学
-
出处
《计算机应用研究》
CSCD
北大核心
2024年第8期2434-2440,共7页
-
基金
中国科学院沈阳自动化研究所基础研究计划资助项目(2022000346)。
-
文摘
为了实现对高延时、非线性和强耦合的复杂工业过程稳定准确的连续控制,提出了一种基于二阶价值梯度模型强化学习的控制方法。首先,该方法在模型训练过程中加入了状态价值函数的二阶梯度信息,具备更精确的函数逼近能力和更高的鲁棒性,学习迭代效率更高;其次,通过采用新的状态采样策略,可以更高效地利用模型进行策略学习。最后,通过在OpenAI的Gym公共实验环境和两个工业场景的仿真环境的实验表明:基于二阶价值梯度模型对比传统的基于最大似然估计模型,环境模型预测误差显著降低;基于二阶价值梯度模型的强化学习方法学习效率优于现有的基于模型的策略优化方法,具备更好的控制性能,并减小了控制过程中的振荡现象。可见该方法能有效地提升训练效率,同时提高工业过程控制的稳定性和准确性。
-
关键词
工业过程控制
模型强化学习
二阶价值梯度
状态价值函数
状态采样策略
-
Keywords
industrial process control
model-based reinforcement learning
second-order value gradient
state value function
state sampling strategy
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-