安全强化学习算法及其在CPS智能控制中的应用被引量：5

Safe Reinforcement Learning Algorithm and Its Application in Intelligent Control for CPS

在线阅读下载PDF

导出

摘要信息物理系统(cyber-physical system,CPS)的安全控制器设计是一个热门研究方向,现有基于形式化方法的安全控制器设计存在过度依赖模型、可扩展性差等问题.基于深度强化学习的智能控制可处理高维非线性复杂系统和不确定性系统,正成为非常有前景的CPS控制技术,但是缺乏对安全性的保障.针对强化学习控制在安全性方面的不足,围绕一个工业油泵控制系统典型案例,开展安全强化学习算法和智能控制应用研究.首先,形式化了工业油泵控制的安全强化学习问题,搭建了工业油泵仿真环境;随后,通过设计输出层结构和激活函数,构造了神经网络形式的油泵控制器,使得油泵开关时间的线性不等式约束得到满足;最后,为了更好地权衡安全性和最优性控制目标,基于增广拉格朗日乘子法设计实现了新型安全强化学习算法.在工业油泵案例上的对比实验表明,该算法生成的控制器在安全性和最优性上均超越了现有同类算法.在进一步评估中,所生成神经网络控制器以90%的概率通过了严格形式化验证;同时,与理论最优控制器相比实现了低至2%的最优目标值损失.所提方法有望推广至更多应用场景,实例研究的方案有望为安全智能控制和形式化验证领域其他学者提供借鉴. The problem of safe controller design for cyber-physical systems(CPS)is a hot research topic.The existing safe controller design based on formal methods has problems such as excessive reliance on system models and poor scalability.Intelligent control based on deep reinforcement learning can handle high-dimensional nonlinear complex systems and uncertain systems,and is becoming a very promising CPS control technology,but it lacks safety guarantees.This study addresses the safety issues of reinforcement learning control by focusing on a case study of a typical industrial oil pump control system,and carries out research in designing new safe reinforcement learning algorithm and applying the algorithm in intelligent control scenario.First,the safe reinforcement learning problem of the industrial oil pump is formulated,and simulation environment of the oil pump is built.Then,by designing the structure and activation function of the output layer,the neural network type oil pump controller is constructed to satisfy the linear inequality constraints of the oil pump switching time.Finally,in order to better balance the safety and optimality control objectives,a new safe reinforcement learning algorithm is designed based on the augmented Lagrange multiplier method.Comparative experiment on the industrial oil pump shows that the controller generated by the proposed algorithm surpasses existing algorithms in the same category,both in safety and optimality.In further evaluation,the neural network controllers generated in this study pass rigorous formal verification with probability of 90%.Meanwhile,compared with the theoretically optimal controller,neural network controllers achieve a loss of optimal objective value as low as 2%.The method proposed in this study is expected to be extended to more application scenarios,and the case study scheme is expected to be referenced by other researchers in the field of intelligent control and formal verification.

作者赵恒军李权忠曾霞刘志明 ZHAO Heng-Jun;LI Quan-Zhong;ZENG Xia;LIU Zhi-Ming(College of Computer and Information Science College of Software,Southwest University,Chongqing 400715,China;Centre for Intelligent and Embedded Software,Northwestern Polytechnical University,Xi’an 710129,China;Centre for Research and Innovation in Software Engineering,Southwest University,Chongqing 400715,China)

机构地区西南大学计算机与信息科学学院软件学院西北工业大学智能嵌入式软件研究中心西南大学软件研究与创新中心

出处《软件学报》 EI CSCD 北大核心 2022年第7期2538-2561,共24页 Journal of Software

基金国家自然科学基金(61902325,62032019,61972385,61732019,61702425) 西南大学国家人才建设项目(SWU116007)

关键词强化学习智能控制信息物理系统安全验证工业油泵 reinforcement learning intelligent control cyber-physical system safety verification industrial oil pump

分类号 TP273 [自动化与计算机技术—检测技术与自动化装置] TP181 [自动化与计算机技术—控制理论与控制工程]

作者简介赵恒军(1985-),男,博士,讲师,CCF专业会员,主要研究领域为信息物理系统,形式化方法;李权忠(1995-),男,硕士生,主要研究领域为强化学习,智能控制;通信作者:曾霞(1987-),女,博士,讲师,主要研究领域为信息物理系统,数值符号计算,E-mail:xzeng0712@swu.edu.cn;刘志明(1961-),男,博士,教授,博士生导师,CCF高级会员,主要研究领域为软件理论与方法

引文网络
相关文献

参考文献2

1白云军,甘庭,焦莉,薛白,詹乃军.时延混成系统的切换控制器合成[J].中国科学：数学,2021,51(1):97-114. 被引量：1
2包为民,祁振强,张玉.智能控制技术发展的思考[J].中国科学：信息科学,2020,50(8):1267-1272. 被引量：22

二级参考文献3

1戴汝为.人工智能概述[J].中国计算机用户,1989(8):14-17. 被引量：3
2吴晓帆,蔡自兴.自动控制的发展与未来[J].石油化工自动化,1999,35(5):6-8. 被引量：6
3黄琳,杨莹,李忠奎.关于智能控制的几个问题[J].中国科学：信息科学,2018,48(8):1112-1120. 被引量：6

共引文献21

1A.Watzl,罗艳,陈水林.AquaTex——新型织物预处理及增强处理[J].国际纺织导报,2000,28(1):69-73. 被引量：2
2鲍鹏飞,陈亮.基于TRIZ 理论的液压支架控制系统发展趋势分析[J].科技创新与品牌,2020(11):62-63. 被引量：3
3孙长银,吴国政,王志衡,丛杨,穆朝絮,贺威.自动化学科面临的挑战[J].自动化学报,2021,47(2):464-474. 被引量：14
4袁利,王淑一.航天器控制系统智能健康管理技术发展综述[J].航空学报,2021,42(4):116-130. 被引量：19
5袁利.面向不确定环境的航天器智能自主控制技术[J].宇航学报,2021,42(7):839-849. 被引量：23
6解向阳,孔宁宁.智能控制技术在机电控制系统中的应用[J].造纸装备及材料,2021,50(6):106-107. 被引量：6
7李涛,杨立安,刘成虎.智能技术在电气自动化中的应用[J].集成电路应用,2022,39(8):210-211.
8张鹏,袁利,陈斌,丰平.航天器数字化模拟及应用技术[J].宇航学报,2023,44(1):73-85. 被引量：9
9郭雷,王陈亮,王雨,朱玉凯,乔建忠.多源干扰下高超声速飞行器自主精细控制[J].宇航学报,2023,44(4):558-565. 被引量：4
10包为民,祁振强.航班化航天运输系统中的控制问题[J].宇航学报,2023,44(4):607-611. 被引量：5

同被引文献37

1刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020,2(4):314-326. 被引量：57
2王凌浩,舒亮,钱祺.基于断路器柔性装配的移动机器人路径规划[J].电子测量技术,2023,46(5):121-128. 被引量：3
3刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：517
4刘建伟,高峰,罗雄麟.基于值函数和策略梯度的深度强化学习综述[J].计算机学报,2019,42(6):1406-1438. 被引量：148
5朱斐,吴文,伏玉琛,刘全.基于双深度网络的安全深度强化学习方法[J].计算机学报,2019,42(8):1812-1826. 被引量：27
6宋绪国,高国庆,苏丛,夏昊天.蓄水电站水污染环境下职工健康状况监测系统设计[J].粘接,2020,43(7):54-58. 被引量：2
7李炜,魏凯锋,李亚洁,史娅红.DoS攻击下CPS双重安全控制与通讯的协同设计[J].兰州理工大学学报,2020,46(6):85-97. 被引量：8
8赵丽莉,周彤.以CPS为核心的工业互联网安全风险及监管控制[J].北京科技大学学报（社会科学版）,2021,37(1):48-55. 被引量：4
9代珊珊,刘全.基于动作约束深度强化学习的安全自动驾驶方法[J].计算机科学,2021,48(9):235-243. 被引量：16
10王程安,于秀明,孟龙.《信息物理系统(CPS)建设指南(2020)》解读(下)[J].信息技术与标准化,2021(9):50-56. 被引量：3

引证文献5

1郝禹哲,王振雷.安全约束下合作型多智能体TD3算法[J].计算机应用研究,2023,40(6):1692-1696.
2王雪松,王荣荣,程玉虎.安全强化学习综述[J].自动化学报,2023,49(9):1813-1835. 被引量：18
3刘贵省,陈亚庆.基于改进卡尔曼滤波的CPS虚假数据注入攻击检测[J].现代科学仪器,2024,41(3):24-30.
4胡恢武.基于改进ELM算法的水电站数字孪生系统仿真实验[J].粘接,2024,51(7):185-188.
5李石磊,叶清,袁志民,陈云,何涛,付钰.在线深度强化学习探索策略生成方法综述[J].机器人,2024,46(6):753-768. 被引量：2

二级引证文献20

1李松,麻壮壮,张蕴霖,邵晋梁.基于安全强化学习的多智能体覆盖路径规划[J].兵工学报,2023,44(S02):101-113. 被引量：1
2张昌昕,张兴龙,徐昕,陆阳.安全强化学习及其在机器人系统中的应用综述[J].控制理论与应用,2023,40(12):2090-2103. 被引量：3
3王雪松,王荣荣,程玉虎.基于表征学习的离线强化学习方法研究综述[J].自动化学报,2024,50(6):1104-1128. 被引量：2
4曹黎媛,张震雨,李春祥.基于深度强化学习调控的非平稳风速模拟[J].上海大学学报（自然科学版）,2024,30(3):451-465.
5周毅,高华,田永谌.基于裁剪优化和策略指导的近端策略优化算法[J].计算机应用,2024,44(8):2334-2341.
6肖海林,黄天义,代秋香,张跃军,张中山.基于轨迹预测的安全强化学习自动变道决策方法[J].计算机应用,2024,44(9):2958-2963.
7褚端峰,王如康,王竞一,花俏枝,陆丽萍,吴超仲.端到端自动驾驶的研究进展及挑战[J].中国公路学报,2024,37(10):209-232. 被引量：2
8孙辉辉,胡春鹤,张军国.事件触发式多智能体分层安全强化学习运动规划[J].控制与决策,2024,39(11):3755-3762. 被引量：2
9郝嘉宁,姚永伟,叶育鑫.本体指导下的安全强化学习最优化策略[J].吉林大学学报(理学版),2025,63(1):83-90.
10罗彪,胡天萌,周育豪,黄廷文,阳春华,桂卫华.多智能体强化学习控制与决策研究综述[J].自动化学报,2025,51(3):510-539. 被引量：3

1马广富,刘昱晗,吕跃勇,郭延宁.基于高斯过程回归的组合体航天器姿态接管学习控制[J].上海航天（中英文）,2022,39(4):42-51.
2郑锐,陈钊,翟岩,周茜,张利川.面向要地信息系统建设需求的论证方法研究[J].指挥控制与仿真,2022,44(5):90-96.
3管新建,王宝勇,张文鸽,杜琼英.不同博弈情况下农户间水权交易价格研究[J].人民黄河,2022,44(10):61-66. 被引量：7
4冯程程,李琰,徐天奇.一种考虑风险传播与预期故障分析的配电网信息物理系统安全性评估方法[J].科学技术与工程,2022,22(23):10116-10122. 被引量：9
5马帅,傅启明,陈建平,冯帆,陆悠,李铮伟,裘舒年.基于双池DQN的HVAC无模型优化控制方法[J].智能科学与技术学报,2022,4(3):426-444. 被引量：2
6陈凯杰,施卉辉,陈强.具有死区输入的非参数不确定系统误差跟踪迭代学习控制[J].高技术通讯,2022,32(7):719-726.
7陈建国,邱兆强.基于过程方法的迭代式型号研制质量复查体系[J].质量与可靠性,2022(4):7-11. 被引量：3
8沈静宇.小学英语单元复习课的多元视角解读——以译林版《英语》五年级下册Unit 5 Helping ourparents为例[J].教师博览（下旬刊）,2022,12(9):86-88. 被引量：1
9Ke Yan,Xiaokang Zhou.Chiller faults detection and diagnosis with sensor network and adaptive 1D CNN[J].Digital Communications and Networks,2022,8(4):531-539. 被引量：3

软件学报

2022年第7期

浏览历史

内容加载中请稍等...

安全强化学习算法及其在CPS智能控制中的应用被引量：5

参考文献2

二级参考文献3

共引文献21

同被引文献37

引证文献5

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

安全强化学习算法及其在CPS智能控制中的应用 被引量：5

参考文献2

二级参考文献3

共引文献21

同被引文献37

引证文献5

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

安全强化学习算法及其在CPS智能控制中的应用被引量：5