-
题名基于短语统计翻译的汉维机器翻译系统
被引量:5
- 1
-
-
作者
杨攀
李淼
张建
-
机构
中国科学院合肥智能机械研究所
中国科学技术大学信息科学技术学院
-
出处
《计算机应用》
CSCD
北大核心
2009年第7期2022-2025,共4页
-
基金
中国科学院知识创新工程重要方向项目(KGCX2-SW-511)
-
文摘
描述了一种基于短语统计翻译的汉维机器翻译系统。首先使用汉维语料进行训练,得到语言模型和翻译模型;再利用训练好的模型对源语句进行解码,以得到最佳的翻译语句。解码的核心算法是柱搜索(beam search)算法。其中维文语料使用的是拉丁维文。实验结果表明,基于短语的统计机器翻译方法可以快速有效地构建一个汉维机器翻译平台。
-
关键词
短语统计翻译
语言模型
翻译模型
柱搜索算法
-
Keywords
phrase-based statistical translation
language model
translation model
beam search algorithm
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于短语相似度的统计机器翻译模型
被引量:3
- 2
-
-
作者
何中军
刘群
林守勋
-
机构
中国科学院计算技术研究所中国科学院智能信息处理重点实验室
中国科学院研究生院
-
出处
《高技术通讯》
EI
CAS
CSCD
北大核心
2009年第4期337-341,共5页
-
基金
863计划(2006AA010108)
国家自然科学基金(60573188
+1 种基金
60603095
60736014)资助项目
-
文摘
针对基于短语的统计机器翻译(SMT)模型中由于采用精确匹配策略导致的短语稀疏问题,提出了一种基于短语相似度的统计机器翻译模型。该模型将基于实例的翻译方法引入到统计机器翻译中。翻译时,对于训练语料库中未出现过的短语,通过计算源语言短语之间的相似度,采用模糊匹配策略从短语表中查找相似的实例短语,并根据实例短语为其构造翻译。与精确匹配策略相比,利用相似度进行模糊匹配增加了对短语表的利用程度,缓解了短语稀疏问题。实验表明,该模型能够明显地提高统计机器翻译的质量,效果超过了当前最好的短语系统'摩西(Moses)'。
-
关键词
相似度
基于短语的统计机器翻译
基于实例的机器翻译
-
Keywords
similarity, phrase-based statistical machine translation, example-based machine translation
-
分类号
TP391.2
[自动化与计算机技术—计算机应用技术]
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于短语模糊匹配和句子扩展的统计翻译方法
被引量:4
- 3
-
-
作者
刘鹏
宗成庆
-
机构
中国科学院自动化研究所模式识别国家重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2009年第5期40-46,共7页
-
基金
国家自然科学基金资助项目(60575043
60736014)
+1 种基金
国家863计划资助项目(2006AA01Z194
2006AA010108)
-
文摘
近几年来,基于短语的统计翻译模型在机器翻译研究中受到普遍关注,并取得了较好的翻译性能。但是,由于目前基于短语的翻译系统在解码时采用精确匹配的策略,常常导致数据稀疏,一方面,有些短语在训练获得的短语表中找不到精确的匹配,使其成为未知短语;另一方面,短语表中大量的短语无法得到充分的利用。为此,我们提出了基于短语模糊匹配和句子扩展的翻译方法。对于不存在于短语表中的短语,通过模糊匹配的办法,寻找与其相似的短语,然后将所有相似短语用于替换原短语,从而生成扩展句子,在此基础上对所有扩展的句子进行翻译。由于并不是所有扩展后的句子都能提高原始句子的翻译效果,因此,我们在句子翻译完成后设置了组合分类器用于选择最优翻译结果。实验证明,这种方法可以有效地提高翻译系统的译文质量。
-
关键词
人工智能
机器翻译
基于短语的统计机器翻译
模糊匹配
组合分类器
-
Keywords
artificial intelligence
machine translation
phrase-based statistical machine translation
fuzzy matching
combination classifier
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于虚拟上下文的统计机器翻译短语表的过滤
被引量:1
- 4
-
-
作者
殷乐
张玉洁
徐金安
-
机构
北京交通大学计算机学院
-
出处
《中文信息学报》
CSCD
北大核心
2013年第6期139-143,共5页
-
基金
北京交通大学人才基金资助项目(KKRC11001532)
-
文摘
在基于短语的统计机器翻译系统中,自动抽取的短语表中不可避免的包含大量的冗余和错误的短语对,这浪费了解码资源又影响翻译质量。为了缓解这个问题,该文提出一种基于虚拟上下文的过滤短语表的方法。该方法引入虚拟上下文计算短语对的得分增量;并通过计算最大和最小的短语对的得分增量,设计了一种对短语对重排序的过滤策略。我们在NTCIR-9的中英数据上进行了验证实验,结果显示,当短语表的规模下降到原来的47%时,翻译质量的BLEU值提高了0.000 5;当短语表的规模下降到原来的30%时,BLEU值仅下降0.000 6。实验结果表明,在大规模短语表的过滤中,该文的方法是有效可行的。
-
关键词
基于短语的统计机器翻译
短语表过滤
虚拟上下文
-
Keywords
phrase-based statistical machine translation, filter phrase table, virtual context
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名人机互助的交互式口语翻译方法
- 5
-
-
作者
刘鹏
宗成庆
-
机构
中国科学院自动化研究所模式识别国家重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2009年第3期58-64,共7页
-
基金
国家自然科学基金资助项目(60575043
60736014)
+1 种基金
支撑计划资助项目(2006BAH03B02)
国家863计划资助项目(2006AA01Z194)
-
文摘
基于短语的统计翻译模型是目前机器翻译领域广泛使用的模型之一。但是,由于在解码时采用短语精确匹配的策略,造成了严重的数据稀疏问题,短语表中的大量短语无法得到充分利用。为此,该文提出了人机互助的交互式翻译方法。对于翻译短语表中找不到的短语,首先通过模糊匹配的方法,在短语表中寻找与其相似的短语。然后利用组合分类器,判断哪些相似短语可能提高句子的翻译质量。最后,通过人机交互的方法,选择可能提高翻译质量且保持原句语义的短语。在口语语料上的实验结果证明,这种方法可以有效地提高翻译系统的译文质量。
-
关键词
人工智能
机器翻译
口语翻译
基于短语的统计机器翻译
人机交互
模糊匹配
-
Keywords
artificial intelligence
machine translation
spoken language translation
phrase-based statistical machine translation
human machine interaction
fuzzy matching
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-