期刊文献+

基于梯度损失的离线强化学习算法

Gradient Loss for Offline Reinforcement Learning
在线阅读 下载PDF
导出
摘要 离线强化学习领域面临的核心挑战在于如何避免分布偏移并限制值函数的过估计问题.尽管传统的TD3+BC算法通过引入行为克隆正则项,有效地约束了习得策略,使其更接近行为策略,从而在一定程度上得到有竞争力的性能,但其策略稳定性在训练过程中仍有待提高.尤其在现实世界中,策略验证可能涉及高昂的成本,因此提高策略稳定性尤为关键.该研究受到深度学习中“平坦最小值”概念的启发,旨在探索目标策略损失函数在动作空间中的平坦区域,以得到稳定策略.为此,提出一种梯度损失函数,并基于此设计一种新的离线强化学习算法——梯度损失离线强化学习算法(GLO).在D4RL基准数据集上的实验结果表明,GLO算法在性能上超越了当前的主流算法.此外,还尝试将该研究的方法扩展到在线强化学习领域,实验结果证明了该方法在在线强化学习环境下的普适性和有效性. Offline reinforcement learning faces the core challenges of preventing distributional shifts and avoiding the overestimation of value functions.While the traditional TD3+BC algorithm achieves competitive performance by introducing behavioral cloning regularization to constrain the learned policy to be closer to the behavior policy,its policy stability during training still needs improvement.Especially in the real world,policy validation can be costly,making policy stability crucial.Inspired by the concept of“flat minima”in deep learning,this study aims to explore the flat regions of the target policy loss function in the action space to obtain a stable policy.To achieve this,a gradient loss function is proposed,and a new offline reinforcement learning algorithm called gradient loss for offline reinforcement learning(GLO)is designed.Experimental results on the D4RL benchmark dataset show that the GLO algorithm outperforms current mainstream algorithms.Furthermore,we extend our approach to the online reinforcement learning domain,demonstrating its generalizability and effectiveness in online reinforcement learning environments.
作者 陈鹏宇 刘士荣 段帅 端军红 刘扬 CHEN Peng-Yu;LIU Shi-Rong;DUAN Shuai;DUAN Jun-Hong;LIU Yang(Faculty of Computing,Harbin Institute of Technology,Har-bin 150001;Air and Missile Defense College,Air Force En-gineering University,Xi'an 710051)
出处 《自动化学报》 北大核心 2025年第6期1218-1232,共15页 Acta Automatica Sinica
基金 国家自然科学基金(62071154,62173340)资助。
关键词 强化学习 离线强化学习 平坦最小值 梯度最小化 Reinforcement learning offline reinforcement learning flat minima gradient minimization
作者简介 陈鹏宇,哈尔滨工业大学计算学部博士研究生.2024年获得哈尔滨工业大学人工智能专业学士学位.主要研究方向为强化学习.E-mail:chenpengyu02@foxmail.com;刘士荣,哈尔滨工业大学计算学部博士研究生.2023年获得哈尔滨工业大学计算机科学与技术专业硕士学位.主要研究方向为离线强化学习.E-mail:shirongliu16@gmail.com;段帅,哈尔滨工业大学计算学部硕士研究生.2022年获得哈尔滨工业大学计算学部学士学位.主要研究方向为多智能体与强化学习.E-mail:18845773665@163.com;端军红,空军工程大学防空反导学院副教授.主要研究方向为导弹智能博弈制导技术,火力控制技术,机器学习及其应用.E-mail:duanjunhonggx@163.com;通信作者:刘扬,哈尔滨工业大学计算学部教授.主要研究方向为强化学习与多智能体、生成模型与分子设计.E-mail:liuyang@hit.edu.cn。
  • 相关文献

参考文献11

二级参考文献85

共引文献616

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部