-
题名基于非连续短语的统计翻译模型研究
被引量:5
- 1
-
-
作者
张大鲲
张玮
冯元勇
孙乐
-
机构
中国科学院软件研究所中文信息处理中心
-
出处
《中文信息学报》
CSCD
北大核心
2007年第1期101-108,共8页
-
基金
国家自然科学基金资助项目(60203007)
-
文摘
目前统计机器翻译的主流方法仍然是基于短语的翻译模型。然而,该模型并没有考虑对非连续短语的处理。本文提出了一种基于非连续短语的统计翻译模型,利用该模型可以使翻译的基本单元从连续短语扩展到带有间隔的非连续短语,以更好地解决词语翻译时的上下文依赖问题。同时,由于该方法抽取的短语数量较少,也使得解码的效率得到了提高。实验表明,在效率提高的情况下,非连续短语模型可以取得与层次型短语模型相当的翻译结果。
-
关键词
人工智能
机器翻译
非连续短语
统计机器翻译
短语模型
-
Keywords
artificial intelligence
machine translation~ non-contiguous phrase
statistical machine translation
phrase-based model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名统计机器翻译中的非连续短语模板抽取及其应用
被引量:2
- 2
-
-
作者
孙越恒
段楠
侯越先
-
机构
天津大学计算机科学与技术学院
-
出处
《计算机科学》
CSCD
北大核心
2009年第10期192-196,共5页
-
基金
国家自然科学基金项目(60603027)
微软亚洲研究院(MSRA)资助
-
文摘
目前基于短语的统计机器翻译模型很少将非连续短语的情况考虑在内,由此造成翻译结果在目标语言中的意义变化或缺失。以非连续介词短语为例,提供了一种短语模板抽取算法。首先采用基于规则的方法,抽取出中文非连续介词短语模板,而后借助双语对齐语料和介词_方位词翻译表,获得模板对应的英文翻译。最终形成的双语模板被加入短语翻译表中。在标准测试语料上的对比实验表明,加入非连续短语模板后,译文更加符合语法规范,而翻译结果也取得了相对稳定的提高。
-
关键词
统计机器翻译
短语模板
非连续介词短语
模板抽取
-
Keywords
Statistical machine translation, Phrase template, Discontinuous preposition phrases, Template extraction
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-