期刊文献+

融合篇章结构位置编码的神经机器翻译 被引量:8

Fusion of discourse structural position encoding for neural machine translation
在线阅读 下载PDF
导出
摘要 现有的文档级神经机器翻译方法在翻译一个句子时大多只利用文档的上下文词汇信息,而忽视了跨句子的篇章语义单元之间的结构关系。针对此问题,提出了多种篇章结构位置编码策略,利用基于修辞结构理论的篇章树结构,对篇章树上位于不同篇章单元的单词之间的位置关系进行了表示。实验表明,通过位置编码的方式,在基于Transformer框架的神经机器翻译模型中有效地融合了源端的篇章结构信息,译文质量得到了显著提升。 Most of existing document-level neural machine translation(DocNMT)methods focus on exploring the utilization of the lexical information of context,which ignore the structural relationships among the cross-sentence discourse semantic units.Therefore,multiple discourse structural position encoding strategies were proposed to represent the positional relationships among the words in discourse units over the discourse tree based on rhetorical structure theory(RST).Experimental results show that the source-side discourse structural position information is effectively fused into the DocNMT models underlying the Transformer architecture by the position encoding,and the translation quality is improved significantly.
作者 亢晓勉 宗成庆 KANG Xiaomian;ZONG Chengqing(National Laboratory of Pattern Recognition,Institute of Automation,Chinese Academy of Sciences,Beijing 100190,China;University of Chinese Academy of Sciences,Beijing 100049,China)
出处 《智能科学与技术学报》 2020年第2期144-152,共9页 Chinese Journal of Intelligent Science and Technology
基金 国家自然科学基金资助项目(No.U1836221)
关键词 神经机器翻译 篇章结构 位置编码 篇章分析 修辞结构理论 neural machine translation discourse structure position encoding discourse analysis rhetorical structure theory
作者简介 亢晓勉(1991−),男,中国科学院自动化研究所模式识别国家重点实验室博士生,主要研究方向为机器翻译、篇章分析。;通信作者:宗成庆(1963−),男,博士,中国科学院自动化研究所模式识别国家重点实验室研究员、博士生导师,主要研究方向为机器翻译、自然语言处理和文本数据挖掘等。cqzong@nlpr.ia.ac.cn
  • 相关文献

参考文献3

共引文献104

同被引文献38

引证文献8

二级引证文献21

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部