-
题名基于标签句子重构的多语言零样本神经机器翻译
- 1
-
-
作者
陈潇
杨雅婷
董瑞
时现伟
马博
吐尔洪·吾司曼
-
机构
中国科学院新疆理化技术研究所
中国科学院大学计算机科学与技术学院
新疆民族语音语言信息处理实验室
新疆维吾尔自治区党委政法委
-
出处
《中文信息学报》
北大核心
2025年第2期80-88,共9页
-
基金
中国科学院民族语言文字信息处理科学数据库(CASWX2021SF0311)
中国科学院青年创新促进会项目(科发人函字[2019]26号)
+4 种基金
中国科学院西部青年学者项目(2019-XBQNXZ-B-022)
中国科学院青年创新促进会优秀会员项目(Y2021112)
新疆维吾尔自治区自然科学基金重点基金(2022D01D04)
国家自然科学基金(U2003303)
新疆“天山英才”青年科技拔尖人才项目(2022TSYCCX0059)。
-
文摘
针对当前多语言零样本翻译的标签策略难以提供丰富的翻译方向信息和模型对语言建模能力的不足,进而导致翻译脱靶的问题,该文提出了使用标签句子重构的多语言零样本神经机器翻译方法。具体而言,首先提出了一种词级别的标签策略,在编码器端增加目标语言标签嵌入,在源语言句子每个词的嵌入表示中注入目标语言信息;其次设计了标签句子重构任务,对句子添加噪声和使用词级别的标签策略后进行重构操作,以达到增强模型语言建模能力的目的。在MultiUN数据集和Europarl数据集上的零样本实验结果表明,所提方法在零样本翻译上的平均BLEU值分别超过强基线0.7和0.3。消融实验结果表明,所提出的语言标签嵌入策略和标签句子重构均能有效提升模型的零样本翻译性能。
-
关键词
零样本机器翻译
多语言神经机器翻译
自然语言处理
-
Keywords
zero-shot machine translation
multilingual neural machine translation
natural language processing
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-