检索结果-维普期刊中文期刊服务平台

共找到1篇文章

< 1 >

每页显示 20 50 100

已选择0条

导出题录引用分析

统计分析

显示方式：

文摘详细列表

相关度排序被引量排序时效性排序

扩散模型期望最大化的离线强化学习方法: 1; 作者刘全颜洁乌兰《软件学报》北大核心 2025年第10期4695-4709,共15页; 在连续且密集奖励的任务中,离线强化学习取得了显著的效果.然而由于其训练过程不与环境交互,泛化能力降低,在离散且稀疏奖赏的环境下性能难以得到保证.扩散模型通过加噪结合样本数据邻域的信息,生成贴近样本数据分布的动作,强化智能体... 展开更多; 关键词离线强化学习扩散模型优势函数加权期望回归期望最大化; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	扩散模型期望最大化的离线强化学习方法	刘全颜洁乌兰	《软件学报》北大核心	2025	0	在线阅读下载PDF 职称材料

已选择0条

导出题录引用分析

统计分析