期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于二阶价值梯度模型强化学习的工业过程控制方法 被引量:1
1
作者 张博 潘福成 +1 位作者 周晓锋 李帅 《计算机应用研究》 CSCD 北大核心 2024年第8期2434-2440,共7页
为了实现对高延时、非线性和强耦合的复杂工业过程稳定准确的连续控制,提出了一种基于二阶价值梯度模型强化学习的控制方法。首先,该方法在模型训练过程中加入了状态价值函数的二阶梯度信息,具备更精确的函数逼近能力和更高的鲁棒性,学... 为了实现对高延时、非线性和强耦合的复杂工业过程稳定准确的连续控制,提出了一种基于二阶价值梯度模型强化学习的控制方法。首先,该方法在模型训练过程中加入了状态价值函数的二阶梯度信息,具备更精确的函数逼近能力和更高的鲁棒性,学习迭代效率更高;其次,通过采用新的状态采样策略,可以更高效地利用模型进行策略学习。最后,通过在OpenAI的Gym公共实验环境和两个工业场景的仿真环境的实验表明:基于二阶价值梯度模型对比传统的基于最大似然估计模型,环境模型预测误差显著降低;基于二阶价值梯度模型的强化学习方法学习效率优于现有的基于模型的策略优化方法,具备更好的控制性能,并减小了控制过程中的振荡现象。可见该方法能有效地提升训练效率,同时提高工业过程控制的稳定性和准确性。 展开更多
关键词 工业过程控制 模型强化学习 二阶价值梯度 状态价值函数 状态采样策略
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部