-
题名模糊匹配在树到串翻译模型中的应用
被引量:1
- 1
-
-
作者
熊皓
刘洋
刘群
-
机构
中国科学院计算技术研究所智能信息处理重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2011年第2期66-71,共6页
-
基金
国家自然科学基金重点资助项目(60736014)
国家863计划重点资助项目(2006AA010108)
-
文摘
在传统的基于树的翻译模型中,一般都是将一条规则视为字符串,然后使用字符串匹配技术从规则表中搜索可用的规则。然而,由于基于树的翻译模型依赖于句法分析的结果,而有些语言的句法分析准确率并不是很高,所以由句法分析错误造成的规则无法匹配的现象很常见,特别是在树到树的翻译模型中,能够精确匹配的规则数量非常稀少,进而对机器翻译的性能造成很大影响。因此该文提出了一种基于树核的模糊匹配技术,在NIST 2005汉英翻译测试集上的结果表明,基于树核的模糊匹配模型相对于传统的翻译模型显著的提高了1.3个BLEU值,并且在森林模型中使用模糊匹配技术仍然能够提高0.7个BLEU值。
-
关键词
树核
树到串翻译模型
统计机器翻译
模糊匹配
-
Keywords
tree kernel
tree-to-string model
statistical machine translation
fuzzy matching
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于统计的汉藏机器翻译系统关键技术研究与实现
- 2
-
-
作者
群诺
尼玛扎西
完么扎西
嘎玛扎西
-
机构
西藏大学信息科学技术学院
-
出处
《高原科学研究》
2018年第2期97-104,共8页
-
基金
国家重点研发计划项目(2017YFB1402200)
西藏自治区科技计划重大科技专项(ZDZX2017000136)
西藏自治区科技计划重点项目(2015XZ01G25)
-
文摘
随着统计机器学习方法的迅速普及,机器翻译技术有了突飞猛进的进展,但是目前基于汉藏两种语言的机器翻译系统研究还处于启蒙阶段。文章主要研究和扩充了已有的统计翻译模型,对藏文文法的特殊性进行了适当的处理,包括藏文动词的时态处理、动词及物性处理、格助词处理等;为解决平行语料不足导致的数据稀疏问题,对基于中介语言的词语翻译模型进行了改进,融合了基于中介语言的统计翻译模型和直接翻译模型;应用"少监督"的方法,改善了统计机器翻译模型训练过程的盲目性、低效性、冗余性和表面性等缺陷,并将这种方法加入到现有的训练过程得到改善的训练方法。
-
关键词
汉藏机器翻译
调序算法
树到串翻译模型
自动分词与标注
-
Keywords
Chinese-Tibetan machine translation
sequence algorithm
tree-to-string translation model
auto.matic word segmentation and tagging
-
分类号
H085
[语言文字]
-