-
题名基于对比学习的转录文本翻译方法研究
- 1
-
-
作者
王世宁
刘宇宸
宗成庆
-
机构
中国科学院自动化研究所模式识别国家重点实验室
中国科学院大学人工智能学院
-
出处
《中文信息学报》
北大核心
2025年第4期67-76,共10页
-
基金
国家自然科学基金(U1836221)。
-
文摘
神经机器翻译系统极易受到输入噪声的干扰,特别是在口语翻译场景中,翻译系统的输入来自语音识别模块的输出,而后者不可避免地存在着识别错误,最终影响翻译性能。现有方法多采用错误修正和翻译的级联式策略以减少识别错误造成的影响,但易导致系统时延增长,且可能引入额外的噪声。该文提出了一种基于对比学习的鲁棒神经机器翻译方法,将包含识别错误的样本作为正例,通过句子级别或词级别的对比损失,分别从整体和局部两种不同角度拉近含噪声文本与干净文本在表示空间中的距离,以降低识别错误对文本表示的影响。同时,该文设计了多种精细化的错误合成方法以模拟更加真实的语音识别错误。在英汉双向多个数据集上的实验表明,该文所提出的方法可以有效降低语音识别错误对翻译模型的影响,提高模型的鲁棒性和翻译性能。
-
关键词
对比学习
鲁棒神经机器翻译
语音识别错误
-
Keywords
contrastive learning
robust neural machine translation
automatic speech recognition error
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-