-
题名融入语言差异化特征的汉越神经机器翻译译文质量估计
被引量:3
- 1
-
-
作者
邹翔
朱俊国
高盛祥
余正涛
杨福岸
-
机构
昆明理工大学信息工程与自动化学院
昆明理工大学云南省人工智能重点实验室
-
出处
《小型微型计算机系统》
CSCD
北大核心
2022年第7期1413-1418,共6页
-
基金
国家自然科学基金项目(61732005,61761026,61672271,61866020)资助
国家重点研发计划项目(2019QY1802,2019QY1801,2019QY1800)资助
+1 种基金
云南省重大科技专项计划项目(202002AD080001)资助
云南省人培项目(KKSY201903018)资助.
-
文摘
译文质量估计是机器翻译领域中一个重要的子任务,该任务旨在不依靠参考译文的情况下对机器译文进行质量分析.当前,译文质量估计任务在汉英、英德机器翻译上有较好的表现,技术相对成熟.但是将模型应用到汉-越神经机器翻译中面临较多问题.尤其是译文质量估计模型在汉越平行数据中提取到的语言特征不能够充分地体现汉语与越南语之间的语言特点,加之汉语与越南语之间语序与句法结构也存在明显的差异.针对上述问题,本文采用统计对齐的方法对汉越之间结构差异进行建模,提取汉语与越南语之间的语言差异化特征,以提升汉越译文质量估计的效果.实验结果表明,融入语言差异化特征在汉-越和越-汉两个方向上较基线模型分别提升了0.52个百分点和0.35个百分点.
-
关键词
质量估计
汉越平行数据
语言特点
差异化特征
汉-越神经机器翻译
-
Keywords
quality estimates
Chinese-Vietnamese parallel data
linguistic characteristics
differentiation features
Chinese-Vietnamese neural machine translation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名低频词表示增强的低资源神经机器翻译
被引量:7
- 2
-
-
作者
朱俊国
杨福岸
余正涛
邹翔
张泽锋
-
机构
昆明理工大学信息工程与自动化学院
昆明理工大学云南省人工智能重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2022年第6期44-51,共8页
-
基金
国家自然科学基金(61732005,62166022,61866020)
云南省科技厅面上项目(202101AT076077)
云南省人培项目(KKSY201903018)。
-
文摘
在神经机器翻译过程中,低频词是影响翻译模型性能的一个关键因素。由于低频词在数据集中出现次数较少,训练经常难以获得准确的低频词表示,该问题在低资源翻译中的影响更为突出。该文提出了一种低频词表示增强的低资源神经机器翻译方法。该方法的核心思想是利用单语数据上下文信息来学习低频词的概率分布,并根据该分布重新计算低频词的词嵌入,然后在所得词嵌入的基础上重新训练Transformer模型,从而有效缓解低频词表示不准确问题。该文分别在汉越和汉蒙两个语言对四个方向上分别进行实验,实验结果表明,该文提出的方法相对于基线模型均有显著的性能提升。
-
关键词
低频词表示
信息增强
低资源
神经机器翻译
-
Keywords
low-frequency word representation
information enhancement
low resources
neural machine translation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-