在连续且密集奖励的任务中,离线强化学习取得了显著的效果.然而由于其训练过程不与环境交互,泛化能力降低,在离散且稀疏奖赏的环境下性能难以得到保证.扩散模型通过加噪结合样本数据邻域的信息,生成贴近样本数据分布的动作,强化智能体...在连续且密集奖励的任务中,离线强化学习取得了显著的效果.然而由于其训练过程不与环境交互,泛化能力降低,在离散且稀疏奖赏的环境下性能难以得到保证.扩散模型通过加噪结合样本数据邻域的信息,生成贴近样本数据分布的动作,强化智能体的学习和泛化能力.针对以上问题,提出一种扩散模型期望最大化的离线强化学习方法(offline reinforcement learning with diffusion models and expectation maximization,DMEM).该方法通过极大似然对数期望最大化更新目标函数,使策略具有更强的泛化性.将扩散模型引入策略网络中,利用扩散的特征,增强策略学习数据样本的能力.同时从高维空间的角度看期望回归更新价值函数,引入一个惩戒项使价值函数评估更准确.将DMEM应用于一系列离散且稀疏奖励的任务中,实验表明,与其他经典的离线强化学习方法相比,DMEM性能上具有较大的优势.展开更多
文摘在连续且密集奖励的任务中,离线强化学习取得了显著的效果.然而由于其训练过程不与环境交互,泛化能力降低,在离散且稀疏奖赏的环境下性能难以得到保证.扩散模型通过加噪结合样本数据邻域的信息,生成贴近样本数据分布的动作,强化智能体的学习和泛化能力.针对以上问题,提出一种扩散模型期望最大化的离线强化学习方法(offline reinforcement learning with diffusion models and expectation maximization,DMEM).该方法通过极大似然对数期望最大化更新目标函数,使策略具有更强的泛化性.将扩散模型引入策略网络中,利用扩散的特征,增强策略学习数据样本的能力.同时从高维空间的角度看期望回归更新价值函数,引入一个惩戒项使价值函数评估更准确.将DMEM应用于一系列离散且稀疏奖励的任务中,实验表明,与其他经典的离线强化学习方法相比,DMEM性能上具有较大的优势.
基金The Humanities and Social Science Research Youth Foundation of Ministry of Education(11YJC790006)the Higher School Science and Technology Development Foundation of Tianjin(20100821)
基金supported by National Natural Science Foundation of China(11101205,71071071)a Project Funded by the Priority Academic Program Development of Jiangsu Higher Education Institutions(PAPD)+2 种基金Shanghai Municipal Natural Science Foundation(12ZR1408300)Humanity and Social Science Youth Foundation of Ministry of Education of China(12YJC910006)the Fundamental Research Funds for the Central Universities