基于梯度损失的离线强化学习算法

Gradient Loss for Offline Reinforcement Learning

在线阅读下载PDF

导出

摘要离线强化学习领域面临的核心挑战在于如何避免分布偏移并限制值函数的过估计问题.尽管传统的TD3+BC算法通过引入行为克隆正则项,有效地约束了习得策略,使其更接近行为策略,从而在一定程度上得到有竞争力的性能,但其策略稳定性在训练过程中仍有待提高.尤其在现实世界中,策略验证可能涉及高昂的成本,因此提高策略稳定性尤为关键.该研究受到深度学习中“平坦最小值”概念的启发,旨在探索目标策略损失函数在动作空间中的平坦区域,以得到稳定策略.为此,提出一种梯度损失函数,并基于此设计一种新的离线强化学习算法——梯度损失离线强化学习算法(GLO).在D4RL基准数据集上的实验结果表明,GLO算法在性能上超越了当前的主流算法.此外,还尝试将该研究的方法扩展到在线强化学习领域,实验结果证明了该方法在在线强化学习环境下的普适性和有效性. Offline reinforcement learning faces the core challenges of preventing distributional shifts and avoiding the overestimation of value functions.While the traditional TD3+BC algorithm achieves competitive performance by introducing behavioral cloning regularization to constrain the learned policy to be closer to the behavior policy,its policy stability during training still needs improvement.Especially in the real world,policy validation can be costly,making policy stability crucial.Inspired by the concept of“flat minima”in deep learning,this study aims to explore the flat regions of the target policy loss function in the action space to obtain a stable policy.To achieve this,a gradient loss function is proposed,and a new offline reinforcement learning algorithm called gradient loss for offline reinforcement learning(GLO)is designed.Experimental results on the D4RL benchmark dataset show that the GLO algorithm outperforms current mainstream algorithms.Furthermore,we extend our approach to the online reinforcement learning domain,demonstrating its generalizability and effectiveness in online reinforcement learning environments.

作者陈鹏宇刘士荣段帅端军红刘扬 CHEN Peng-Yu;LIU Shi-Rong;DUAN Shuai;DUAN Jun-Hong;LIU Yang(Faculty of Computing,Harbin Institute of Technology,Har-bin 150001;Air and Missile Defense College,Air Force En-gineering University,Xi'an 710051)

机构地区哈尔滨工业大学计算学部空军工程大学防空反导学院

出处《自动化学报》北大核心 2025年第6期1218-1232,共15页 Acta Automatica Sinica

基金国家自然科学基金(62071154,62173340)资助。

关键词强化学习离线强化学习平坦最小值梯度最小化 Reinforcement learning offline reinforcement learning flat minima gradient minimization

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

作者简介陈鹏宇,哈尔滨工业大学计算学部博士研究生.2024年获得哈尔滨工业大学人工智能专业学士学位.主要研究方向为强化学习.E-mail:chenpengyu02@foxmail.com;刘士荣,哈尔滨工业大学计算学部博士研究生.2023年获得哈尔滨工业大学计算机科学与技术专业硕士学位.主要研究方向为离线强化学习.E-mail:shirongliu16@gmail.com;段帅,哈尔滨工业大学计算学部硕士研究生.2022年获得哈尔滨工业大学计算学部学士学位.主要研究方向为多智能体与强化学习.E-mail:18845773665@163.com;端军红,空军工程大学防空反导学院副教授.主要研究方向为导弹智能博弈制导技术,火力控制技术,机器学习及其应用.E-mail:duanjunhonggx@163.com;通信作者:刘扬,哈尔滨工业大学计算学部教授.主要研究方向为强化学习与多智能体、生成模型与分子设计.E-mail:liuyang@hit.edu.cn。

引文网络
相关文献

参考文献11

1刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：527
2丁世飞,杜威,张健,郭丽丽,丁玲.多智能体深度强化学习研究进展[J].计算机学报,2024,47(7):1547-1567. 被引量：9
3吴晓光,刘绍维,杨磊,邓文强,贾哲恒.基于深度强化学习的双足机器人斜坡步态控制方法[J].自动化学报,2021,47(8):1976-1987. 被引量：30
4张威振,何真,汤张帆.风扰下无人机栖落机动的强化学习控制设计[J].上海交通大学学报,2024,58(11):1753-1761. 被引量：1
5余宏晖,林声宏,朱建全,陈浩悟.基于深度强化学习的微电网在线优化[J].电测与仪表,2024,61(4):9-14. 被引量：3
6张沛,陈玉鑫,王光华,李晓影.基于图强化学习的配电网故障恢复决策[J].电力系统自动化,2024,48(2):151-158. 被引量：11
7刘健,顾扬,程玉虎,王雪松.基于多智能体强化学习的乳腺癌致病基因预测[J].自动化学报,2022,48(5):1246-1258. 被引量：8
8张兴龙,陆阳,李文璋,徐昕.基于滚动时域强化学习的智能车辆侧向控制算法[J].自动化学报,2023,49(12):2481-2492. 被引量：4
9何逸煦,林泓熠,刘洋,杨澜,曲小波.强化学习在自动驾驶技术中的应用与挑战[J].同济大学学报（自然科学版）,2024,52(4):520-531. 被引量：12
10刘扬,何泽众,王春宇,郭茂祖.基于DDPG算法的末制导律设计研究[J].计算机学报,2021,44(9):1854-1865. 被引量：14

二级参考文献85

1赵恒军,李权忠,曾霞,刘志明.安全强化学习算法及其在CPS智能控制中的应用[J].软件学报,2022,33(7):2538-2561. 被引量：5
2沈艳军,杨博.需求响应的微电网优化调度及改进的蝙蝠算法[J].华中科技大学学报（自然科学版）,2020,48(2):120-125. 被引量：21
3魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
4易新,陆于平.分布式发电条件下的配电网孤岛划分算法[J].电网技术,2006,30(7):50-54. 被引量：150
5卢志刚,董玉香.含分布式电源的配电网故障恢复策略[J].电力系统自动化,2007,31(1):89-92. 被引量：85
6高阳,周如益,王皓,曹志新.平均奖赏强化学习算法研究[J].计算机学报,2007,30(8):1372-1378. 被引量：38
7王皓,高阳,陈兴国.强化学习中的迁移:方法和进展[J].电子学报,2008,36(B12):39-43. 被引量：27
8郭景华,胡平,李琳辉,王荣本,张明恒,郭烈.基于遗传优化的无人车横向模糊控制[J].机械工程学报,2012,48(6):76-82. 被引量：33
9ZHAO Jie WU XiaoGuang ZANG XiZhe YAN JiHong.Analysis of period doubling bifurcation and chaos mirror of biped passive dynamic robot gait[J].Chinese Science Bulletin,2012,57(14):1743-1750. 被引量：4
10孙志军,薛磊,许阳明,王正.深度学习研究综述[J].计算机应用研究,2012,29(8):2806-2810. 被引量：667

共引文献616

1傅汇乔,唐开强,邓归洲,王鑫鹏,陈春林.基于深度强化学习的六足机器人运动规划[J].智能科学与技术学报,2020,2(4):361-371. 被引量：4
2刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020,2(4):314-326. 被引量：60
3韩志豪,汪益兵,张宇,郝永志.基于深度强化学习的船舶航线自动规划[J].中国航海,2021,44(1):100-105. 被引量：10
4张磊,母亚双,潘泉.基于改进深度双Q网络的移动机器人路径规划算法[J].信息与控制,2024,53(3):365-376. 被引量：5
5李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：59
6周瑶瑶,李烨.基于排序优先经验回放的竞争深度Q网络学习[J].计算机应用研究,2020,37(2):486-488. 被引量：10
7李逊,李俊超,邓林忠,康旭云,欧启捷,劳恒辉.人工智能优化技术在钢筋混凝土结构的应用[J].建筑结构,2023,53(S02):1425-1430. 被引量：1
8王雪鉴,文永明,石晓荣,张宁宁,刘洁玺.多智能体多耦合任务混合式智能决策架构设计[J].航空学报,2023,44(S02):418-425. 被引量：3
9刘洋,李建军.深度确定性策略梯度算法优化[J].辽宁工程技术大学学报（自然科学版）,2020(6):545-549. 被引量：2
10蒋方庆,陈自力,高喜俊,王春峰,贺道坤.基于改进TD3算法的无人机决策研究[J].信息化研究,2023,49(3):36-42. 被引量：1

1蔡冬,王苹,李忆.重型商用车用电机+AMT半实物台架测试方法研究[J].商用汽车,2025(1):58-61.
2刘志远,邹云峰,周家亿,于鹏飞,项达冬.基于区块链安全多方计算的电力地址数字化治理工具建设研究[J].自动化与仪器仪表,2025(5):250-254.
3程志强,石宇凌,谢文浩,李子豪,唐国元.面向多无人艇回收的虚实联合仿真方法及系统[J].船舶,2025,36(3):23-33.

自动化学报

2025年第6期

浏览历史

内容加载中请稍等...

基于梯度损失的离线强化学习算法

参考文献11

二级参考文献85

共引文献616

相关作者

相关机构

相关主题

浏览历史