-
题名异策略模仿-强化学习序列推荐算法
被引量:1
- 1
-
-
作者
刘珈麟
贺泽宇
李俊
-
机构
中国科学院计算机网络信息中心
中国科学院大学
北京信息科技大学计算机学院
-
出处
《计算机应用研究》
CSCD
北大核心
2024年第5期1349-1355,共7页
-
基金
国家自然科学基金资助项目(61672490,61602436)
中国科学院对外合作重点项目(241711KYSB20180002)
国家重大研发计划子课题(2022YFC3320900)。
-
文摘
最近,强化学习序列推荐系统受到研究者们的广泛关注,这得益于它能更好地联合建模用户感兴趣的内动态和外倾向。然而,现有方法面临同策略评估方法数据利用率低,导致模型依赖大量的专家标注数据,以及启发式价值激励函数设计依赖反复人工调试两个主要挑战。因此,提出了一种新颖的异策略模仿-强化学习的序列推荐算法COG4Rec,以提高数据利用效率和实现可学习的价值函数。首先,它通过异策略方式更新分布匹配目标函数,来避免同策略更新密集在线交互限制;其次,COG4Rec采用可学习的价值函数设计,通过对数衰减状态分布比,模仿用户外倾向的价值激励函数;最后,为了避免模仿学习分布漂移问题,COG4Rec通过累积衰减分布比,强化用户行为记录中高价值轨迹片段重组推荐策略。一系列基准数据集上的性能对比实验和消融实验结果表明:COG4Rec比自回归模型提升了17.60%,它比启发式强化学习方法提升了3.25%。这证明了所提模型结构和优化算法的有效性。这也证明可学习的价值函数是可行的,并且异策略方式能有效提高数据利用效率。
-
关键词
异策略评估
模仿学习
逆强化学习
序列推荐
-
Keywords
off-policy evaluation
imitation learning
inverse reinforcement learning
sequential recommendation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-