[目的]针对传统文本替换数据增强技术所导致的扩充句对语义不对齐的问题,提出一种面向低资源神经机器翻译的源语言镜像的数据增强(data augmentation via source language mirroring,DASLM)方法.[方法]DASLM通过凯撒加密技术进行源语言...[目的]针对传统文本替换数据增强技术所导致的扩充句对语义不对齐的问题,提出一种面向低资源神经机器翻译的源语言镜像的数据增强(data augmentation via source language mirroring,DASLM)方法.[方法]DASLM通过凯撒加密技术进行源语言语句的字母级加密,增加源语言和目标语言之间的形式多样性,同时强化源语言与目标语言之间的语言不变特征;利用多语言联合训练可增强编码器提取语言不变特征的特点,用镜像语料与原始语料联合训练翻译模型.采用CCMT2023藏汉、维汉和蒙汉数据集,在Transformer模型框架下进行性能评估,并与多种主流数据增强方法进行对比.[结果]DASLM在藏汉、维汉与蒙汉3个低资源翻译任务中的BLEU值分别为24.71%、31.78%和41.67%.该方法在提升模型准确性的同时,能够在无额外模型训练的情况下达到媲美现有复杂增强方法的性能.在CCMT2024评测中取得较好的成绩.[结论]源语言镜像数据能保持与原始语料相似的语义和句法结构,DASLM方法克服了机器翻译任务中传统数据增强方法语义不对齐和译文不自然的缺陷,显著适用于低资源机器翻译.展开更多
文摘[目的]针对传统文本替换数据增强技术所导致的扩充句对语义不对齐的问题,提出一种面向低资源神经机器翻译的源语言镜像的数据增强(data augmentation via source language mirroring,DASLM)方法.[方法]DASLM通过凯撒加密技术进行源语言语句的字母级加密,增加源语言和目标语言之间的形式多样性,同时强化源语言与目标语言之间的语言不变特征;利用多语言联合训练可增强编码器提取语言不变特征的特点,用镜像语料与原始语料联合训练翻译模型.采用CCMT2023藏汉、维汉和蒙汉数据集,在Transformer模型框架下进行性能评估,并与多种主流数据增强方法进行对比.[结果]DASLM在藏汉、维汉与蒙汉3个低资源翻译任务中的BLEU值分别为24.71%、31.78%和41.67%.该方法在提升模型准确性的同时,能够在无额外模型训练的情况下达到媲美现有复杂增强方法的性能.在CCMT2024评测中取得较好的成绩.[结论]源语言镜像数据能保持与原始语料相似的语义和句法结构,DASLM方法克服了机器翻译任务中传统数据增强方法语义不对齐和译文不自然的缺陷,显著适用于低资源机器翻译.