-
题名一种新的基于凸损失函数的离散扩散文本生成模型
- 1
-
-
作者
李思慧
蔡国永
蒋航
文益民
-
机构
桂林电子科技大学计算机与信息安全学院
广西可信软件重点实验室
桂林旅游学院广西文化和旅游智慧技术重点实验室
-
出处
《计算机科学》
北大核心
2025年第10期231-238,共8页
-
基金
国家自然科学基金(62366010)
广西重点研发计划(桂科AB21220023)。
-
文摘
扩散语言模型采用的非自回归生成方式能显著提高推理速度,通过迭代重建过程持续优化能提高生成文本质量,因此它在文本生成任务中具有极大潜力。然而,扩散语言模型训练多采用基于极大似然估计的交叉熵损失,即便生成了正确句,也可能因为没有与参考句严格对齐被惩罚,使扩散语言模型面临严重的多模态问题,进而大大降低了文本生成质量。为了缓解多模态问题,提出了一种基于凸损失函数训练的离散扩散语言模型ConvexDiffusion,该模型利用凸函数可以锐化最优分布这一特性,使模型更专注于高概率输出;为了进一步提高文本生成质量,降低生成词的重复率,设计了一种使噪声标记非线性变化的混合感知噪声表,并在解码过程中采用高置信度确定性去噪策略。在机器翻译、问题生成、问题阐述这3类文本生成任务上的实验结果表明,ConvexDiffusion相比现有领先的扩散模型RDM和非自回归模型CMLM等,性能提升了1~7个BLEU,且具有更快的生成速度。特别是在WMT16’EN-RO和WMT14’EN-DE这两个大型数据集上,ConvexDiffusion的表现超越了目前主导文本生成领域的自回归语言模型。
-
关键词
扩散模型
文本生成
多模态问题
损失函数
凸损失函数
-
Keywords
Diffusion model
Text generation
Multimodality problem
Loss function
Convex loss function
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-