期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
一种新的基于凸损失函数的离散扩散文本生成模型
1
作者 李思慧 蔡国永 +1 位作者 蒋航 文益民 《计算机科学》 北大核心 2025年第10期231-238,共8页
扩散语言模型采用的非自回归生成方式能显著提高推理速度,通过迭代重建过程持续优化能提高生成文本质量,因此它在文本生成任务中具有极大潜力。然而,扩散语言模型训练多采用基于极大似然估计的交叉熵损失,即便生成了正确句,也可能因为... 扩散语言模型采用的非自回归生成方式能显著提高推理速度,通过迭代重建过程持续优化能提高生成文本质量,因此它在文本生成任务中具有极大潜力。然而,扩散语言模型训练多采用基于极大似然估计的交叉熵损失,即便生成了正确句,也可能因为没有与参考句严格对齐被惩罚,使扩散语言模型面临严重的多模态问题,进而大大降低了文本生成质量。为了缓解多模态问题,提出了一种基于凸损失函数训练的离散扩散语言模型ConvexDiffusion,该模型利用凸函数可以锐化最优分布这一特性,使模型更专注于高概率输出;为了进一步提高文本生成质量,降低生成词的重复率,设计了一种使噪声标记非线性变化的混合感知噪声表,并在解码过程中采用高置信度确定性去噪策略。在机器翻译、问题生成、问题阐述这3类文本生成任务上的实验结果表明,ConvexDiffusion相比现有领先的扩散模型RDM和非自回归模型CMLM等,性能提升了1~7个BLEU,且具有更快的生成速度。特别是在WMT16’EN-RO和WMT14’EN-DE这两个大型数据集上,ConvexDiffusion的表现超越了目前主导文本生成领域的自回归语言模型。 展开更多
关键词 扩散模型 文本生成 多模态问题 损失函数 凸损失函数
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部