在连续且密集奖励的任务中,离线强化学习取得了显著的效果.然而由于其训练过程不与环境交互,泛化能力降低,在离散且稀疏奖赏的环境下性能难以得到保证.扩散模型通过加噪结合样本数据邻域的信息,生成贴近样本数据分布的动作,强化智能体...在连续且密集奖励的任务中,离线强化学习取得了显著的效果.然而由于其训练过程不与环境交互,泛化能力降低,在离散且稀疏奖赏的环境下性能难以得到保证.扩散模型通过加噪结合样本数据邻域的信息,生成贴近样本数据分布的动作,强化智能体的学习和泛化能力.针对以上问题,提出一种扩散模型期望最大化的离线强化学习方法(offline reinforcement learning with diffusion models and expectation maximization,DMEM).该方法通过极大似然对数期望最大化更新目标函数,使策略具有更强的泛化性.将扩散模型引入策略网络中,利用扩散的特征,增强策略学习数据样本的能力.同时从高维空间的角度看期望回归更新价值函数,引入一个惩戒项使价值函数评估更准确.将DMEM应用于一系列离散且稀疏奖励的任务中,实验表明,与其他经典的离线强化学习方法相比,DMEM性能上具有较大的优势.展开更多
文摘在连续且密集奖励的任务中,离线强化学习取得了显著的效果.然而由于其训练过程不与环境交互,泛化能力降低,在离散且稀疏奖赏的环境下性能难以得到保证.扩散模型通过加噪结合样本数据邻域的信息,生成贴近样本数据分布的动作,强化智能体的学习和泛化能力.针对以上问题,提出一种扩散模型期望最大化的离线强化学习方法(offline reinforcement learning with diffusion models and expectation maximization,DMEM).该方法通过极大似然对数期望最大化更新目标函数,使策略具有更强的泛化性.将扩散模型引入策略网络中,利用扩散的特征,增强策略学习数据样本的能力.同时从高维空间的角度看期望回归更新价值函数,引入一个惩戒项使价值函数评估更准确.将DMEM应用于一系列离散且稀疏奖励的任务中,实验表明,与其他经典的离线强化学习方法相比,DMEM性能上具有较大的优势.