-
题名结合噪声数据增强的蒙汉伪平行语料库的构造
- 1
-
-
作者
田永红
章钧津
宋哲煜
-
机构
内蒙古工业大学数据科学与应用学院
-
出处
《计算机工程与科学》
北大核心
2025年第4期751-760,共10页
-
基金
国家自然科学基金(62466043)。
-
文摘
神经机器翻译作为机器翻译的主流方法在一般翻译任务中取得了较好的表现。然而其翻译质量依赖于大规模平行语料库,对于低资源语言,语料不足成为其发展面临的重要挑战。数据增强技术的出现能够有效解决数据稀缺问题,因此,通过将噪声数据引入反向翻译的方法进行数据增强构造伪平行语料库。首先对文本进行语料预处理,其次进行反向翻译和结合噪声数据后的反向翻译,再次进行文本相似度匹配,最后将反向翻译技术与结合噪声数据后的反向翻译技术进行对比。在实验数据集上的实验结果表明,结合噪声数据后的反向翻译技术有效提升了低资源机器翻译的表现,其翻译结果在BLEU指标上较仅使用反向翻译技术的提升了1.10%,较未使用反向翻译技术的提升了1.96%。
-
关键词
数据增强
噪声数据
文本相似度匹配
语料预处理
-
Keywords
data enhancement
noisy data
text similarity matching
corpus pre-processing
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-