期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
扩散模型期望最大化的离线强化学习方法
1
作者 刘全 颜洁 乌兰 《软件学报》 北大核心 2025年第10期4695-4709,共15页
在连续且密集奖励的任务中,离线强化学习取得了显著的效果.然而由于其训练过程不与环境交互,泛化能力降低,在离散且稀疏奖赏的环境下性能难以得到保证.扩散模型通过加噪结合样本数据邻域的信息,生成贴近样本数据分布的动作,强化智能体... 在连续且密集奖励的任务中,离线强化学习取得了显著的效果.然而由于其训练过程不与环境交互,泛化能力降低,在离散且稀疏奖赏的环境下性能难以得到保证.扩散模型通过加噪结合样本数据邻域的信息,生成贴近样本数据分布的动作,强化智能体的学习和泛化能力.针对以上问题,提出一种扩散模型期望最大化的离线强化学习方法(offline reinforcement learning with diffusion models and expectation maximization,DMEM).该方法通过极大似然对数期望最大化更新目标函数,使策略具有更强的泛化性.将扩散模型引入策略网络中,利用扩散的特征,增强策略学习数据样本的能力.同时从高维空间的角度看期望回归更新价值函数,引入一个惩戒项使价值函数评估更准确.将DMEM应用于一系列离散且稀疏奖励的任务中,实验表明,与其他经典的离线强化学习方法相比,DMEM性能上具有较大的优势. 展开更多
关键词 离线强化学习 扩散模型 优势函数加权 期望回归 期望最大化
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部