-
题名基于短语的统计机器翻译中短语表的过滤
被引量:1
- 1
-
-
作者
狄萍
周宥良
贡正仙
周国栋
-
机构
苏州大学计算机科学与技术学院
-
出处
《计算机应用与软件》
CSCD
2011年第5期28-30,41,共4页
-
基金
国家自然科学基金项目(60673041)
-
文摘
大多数基于短语的统计机器翻译系统将任意连续的词串看作短语,并没有考虑短语的合理性。使用了C-value以及短语粘结度两种方法,有效地对短语表进行过滤,减小了搜索空间,同时还提高了翻译质量。实验表明,在翻译结果的BLEU评价提高0.02的情况下,短语表可以缩减为原来的78%。并且当短语表缩减为原来的47.5%时,BLEU评价仍提高了0.0158。
-
关键词
统计机器翻译
短语表过滤
C-VALUE
短语粘结度
-
Keywords
Statistical machine translation Phrase table filtration C-value Phrase cohesion value
-
分类号
TP391.2
[自动化与计算机技术—计算机应用技术]
-
-
题名基于虚拟上下文的统计机器翻译短语表的过滤
被引量:1
- 2
-
-
作者
殷乐
张玉洁
徐金安
-
机构
北京交通大学计算机学院
-
出处
《中文信息学报》
CSCD
北大核心
2013年第6期139-143,共5页
-
基金
北京交通大学人才基金资助项目(KKRC11001532)
-
文摘
在基于短语的统计机器翻译系统中,自动抽取的短语表中不可避免的包含大量的冗余和错误的短语对,这浪费了解码资源又影响翻译质量。为了缓解这个问题,该文提出一种基于虚拟上下文的过滤短语表的方法。该方法引入虚拟上下文计算短语对的得分增量;并通过计算最大和最小的短语对的得分增量,设计了一种对短语对重排序的过滤策略。我们在NTCIR-9的中英数据上进行了验证实验,结果显示,当短语表的规模下降到原来的47%时,翻译质量的BLEU值提高了0.000 5;当短语表的规模下降到原来的30%时,BLEU值仅下降0.000 6。实验结果表明,在大规模短语表的过滤中,该文的方法是有效可行的。
-
关键词
基于短语的统计机器翻译
短语表过滤
虚拟上下文
-
Keywords
phrase-based statistical machine translation, filter phrase table, virtual context
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-