一种基于短语的汉蒙统计机器翻译与调序模型被引量：3

A phrase based statistical Chinese-Mongolian machine translation and reordering model

在线阅读下载PDF

导出

摘要根据蒙古语的一些特点,为基于短语的汉蒙统计机器翻译提出了一种适合于汉蒙统计机器翻译的调序模型,并给出了相应的训练和解码算法以及初步实验的结果。汉蒙双语语料库规模很小,数据稀疏问题严重,而在汉蒙翻译中,词序变化又非常明显,在汉英等机器翻译中使用的调序方法难于应用到汉蒙统计机器翻译中。通过对汉蒙翻译过程中词语顺序变化的正态分布假设,建立了一种概率调序模型。实验表明,这种概率调序模型好于 Moses系统中采用的调序方法。 Based on the phrase-based statistical Chinese-Mongolian machine translation, an ordering model is put forward according to the Mongolian features, together with the corresponding drills, the decoding algorithm as well as the results of the primary experiments. Currently, the Chinese-Mongolian bilingual corpus is on a relatively small scale and its data are seriously sparse. In addition, the word order changes are dramatic and prevalent in Chinese-Mongolian translations. Consequently, the reordering method used in Chinese-English translation can not be optimally applied to the Chinese-Mongolian translation. By the assumption of the normal distribution of word-order changes after the analyses of these changes in Chinese-Mongolian translations, a probabilistic reordering model is established in the paper. According to the experimental results, the probabilistic model is superior to the ordering method in the Moses.

作者侯宏旭刘群李锦涛

机构地区内蒙古大学计算机学院中国科学院计算技术研究所中国科学院研究生院

出处《高技术通讯》 EI CAS CSCD 北大核心 2009年第5期475-479,共5页 Chinese High Technology Letters

基金 973计划(2007CB316503) 内蒙古自然基金(200607010805)资助项目

关键词机器翻译统计方法蒙古语调序概率 machine translation, statistical method, Mongolian, reorder, probability

分类号 TP391.2 [自动化与计算机技术—计算机应用技术] TP212 [自动化与计算机技术—检测技术与自动化装置]

作者简介男，1972年生，博士，副教授；研究方向：自然语言处理；联系人，E-mail：eshhx@imu．edu．cn

引文网络
相关文献

参考文献15

1Och F J, Tillman C, Ney H. Improved alignment models for statistical machine translation. In: Proceedings of the Conference on Empirical Methods of Natural Language Processing, College Park, Maryland, USA, 1999.20-28.
2Koehn P, Och F J, Marcu D. Statistical phrase-based translation. In: Proceedings of the Homan Language Technology/ North American Chapter of the Association for Computing Linguistics 2003, Edmonton, Canada, 2003. 127-133.
3侯宏旭,刘群,那顺乌日图.基于实例的汉蒙机器翻译[J].中文信息学报,2007,21(4):65-72. 被引量：16
4Brown P F, Cocke J, Della Pietra S A, et al. A statistical approach to machine translation. ComputationalLinguistics, 1990, 16(2) :79-85.
5Brown P F, Della Pierre S A, Della Pietm V J, et al. The mathematics of statistical machine translation parameter estimation. ComputationalLinguistics, 1993, 19(2) :263-311.
6Liu Y, Liu Q, Lin S. Tree-to-string alignment template for statistical machine translation. In: Proceedings of the International Conference on Computing Linguistics/Annual Meeting of the Association for Computing Linguistics, Sydney, Australia, 2006. 609-616.
7Xiong D, Liu Q, Lin S. Maximum entropy based phrase reordering model for statistical machine translation. In: Proceedings of the International Conference on Computing Iinguistics/Annual Meeting of the Association for Computing Linguistics, Sydney, Australia, 2006. 521-528.
8Tillmann C, Zhang T. A localized prediction model for statistical machine translation. In: Proceedings of the Annual Meeting of the Association for Computing Linguistics, Ann Arbor, Michigan, USA, 2005. 557-564.
9Watanabe T, Sumita E. Bidirectional decoding for statistical machine translation. In: Proceedings of the 19th International Conference on Computational Linguistic (COLING), Taipei, China, 2002. 1078-1085.
10侯宏旭,刘群,刘志文,张国强.Skip-N蒙古文统计语言模型[J].内蒙古大学学报（自然科学版）,2008,39(2):220-224. 被引量：8

二级参考文献54

1那顺乌日图.计算机处理现代蒙古语TAI、TEI形式的尝试[J].民族语文,1991(3):74-79. 被引量：2
2那顺乌日图.关于在蒙古语文研究中运用统计学方法的问题[J].民族语文,1993(5):46-50. 被引量：4
3刘群.基于微引擎流水线的机器翻译系统结构[J].计算机学报,2004,27(5):651-658. 被引量：3
4刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
5刘洋,刘群,林守勋.机器翻译评测中的模糊匹配[J].中文信息学报,2005,19(3):45-53. 被引量：9
6张孝飞,陈肇雄,黄河燕,胡春玲.多策略机器翻译系统IHSMTS中实例模式泛化匹配算法[J].中文信息学报,2005,19(4):1-9. 被引量：1
7胡日勒,宗成庆,徐波.基于统计学习的机器翻译模板自动获取方法[J].中文信息学报,2005,19(6):1-6. 被引量：7
8侯宏旭,刘群,张玉洁,井佐原均.2005年度863机器翻译评测方法研究与实施[J].中文信息学报,2006,20(B03):7-18. 被引量：6
9黄河燕,陈肇雄,张孝飞,张克亮.大规模句子相似度计算方法[J].中文信息学报,2006,20(B03):47-52. 被引量：6
10徐波,史晓东,刘群,宗成庆,庞薇,陈振标,杨振东,魏玮,杜金华,陈毅东,刘洋,熊德意,侯宏旭,何中军.2005统计机器翻译研讨班研究报告[J].中文信息学报,2006,20(5):1-9. 被引量：10

共引文献30

1侯宏旭,刘群,那顺乌日图.基于实例的汉蒙机器翻译[J].中文信息学报,2007,21(4):65-72. 被引量：16
2苗洪霞,蔡东风,宋彦.基于短语的统计机器翻译方法[J].沈阳航空工业学院学报,2007,24(2):32-34. 被引量：1
3薛永增,李生,赵铁军,杨沐昀.短语统计机器翻译的句法调序模型[J].通信学报,2008,29(1):7-14. 被引量：6
4杨攀,张建,李淼,乌达巴拉,雪艳.汉蒙统计机器翻译中的形态学方法研究[J].中文信息学报,2009,23(1):50-57. 被引量：10
5王正,孙东云.统计机器翻译系统在网络翻译教学中的应用[J].上海翻译,2009(1):73-77. 被引量：18
6侯宏旭,刘群,那顺乌日图,牧仁高娃,李锦涛.基于统计语言模型的蒙古文词切分[J].模式识别与人工智能,2009,22(1):108-112. 被引量：14
7侯宏旭,张国强,刘志文.层次化蒙古语统计语言模型[J].内蒙古大学学报（自然科学版）,2009,40(3):336-340. 被引量：2
8那斯尔江.吐尔逊,吾守尔.斯拉木.基于隐马尔可夫模型的维吾尔语连续语音识别系统[J].计算机应用,2009,29(7):2009-2011. 被引量：17
9杨攀,李淼,张建.基于短语统计翻译的汉维机器翻译系统[J].计算机应用,2009,29(7):2022-2025. 被引量：5
10刘志文,侯宏旭,李沙茹拉,柳林.基于trigger对的蒙古语语言模型的三种实现方法比较[J].中文信息学报,2009,23(6):105-109. 被引量：1

同被引文献47

1古丽拉.阿东别克,米吉提.阿布力米提.维吾尔语词切分方法初探[J].中文信息学报,2004,18(6):61-65. 被引量：39
2杨宪泽,雷开彬,吴守宪,张上游,宁爱华.一种句型转换和近似机器翻译方法及算法[J].计算机工程与科学,2005,27(11):66-68. 被引量：7
3刘康龙,穆雷.语料库语言学与翻译研究[J].中国翻译,2006,27(1):59-64. 被引量：47
4阿依克孜.卡德尔,开沙尔.卡德尔,吐尔根.依布拉音.面向自然语言信息处理的维吾尔语名词形态分析研究[J].中文信息学报,2006,20(3):43-48. 被引量：23
5侯宏旭,刘群,那顺乌日图.基于实例的汉蒙机器翻译[J].中文信息学报,2007,21(4):65-72. 被引量：16
6冯志伟,徐波,孙茂松.机器翻译的现状和问题[M].科学出版社,2003.
7NagaoM.A. Framework of a mechanical translation betweenJapanese and English by analogy principle [M], North HollandPublications,1984.
8Koehn P,Och F J, Marcu D. Statistical phrase -basedtranslation[J].Association for Computational Linguistics,2003,48-54.
9Och F J, Ney H.A systematic comparison of variousstatistical alignment models[J]. Computational linguistics,2003,29(1):19-51.
10KOEHN P, OCH F J, MARCU D. Statistical phrase-based translation [ C ]//Proc of Conference of the North American Chapter of Associa- tion for Computational Linguistics on Human Language. Stroudsburg: Associetion for Computertional Linguistics,2003:48- 54.

引证文献3

1陈韵,张鹏华,任利华.机器翻译研究述评[J].价值工程,2013,32(1):174-176. 被引量：3
2米成刚,王磊,杨雅婷,陈科海.维汉机器翻译未登录词识别研究[J].计算机应用研究,2013,30(4):1112-1115. 被引量：9
3陈雷,李淼,张健,曾伟辉.有限语料汉蒙统计机器翻译调序方法研究[J].中文信息学报,2013,27(5):198-204. 被引量：2

二级引证文献14

1李响,南江,杨雅婷,周喜,米成刚.泛化语言模型在汉维机器翻译中的应用[J].计算机应用研究,2014,31(10):2994-2997. 被引量：4
2张力文,努尔麦麦提.尤鲁瓦斯,吾守尔.斯拉木.维吾尔语语音检索技术研究[J].中文信息学报,2014,28(5):182-186. 被引量：3
3艾孜孜.吐尔逊,杨雅婷,吐尔洪.吾司曼,周俊林,李晓.维-汉统计机器翻译中维吾尔语预处理研究[J].计算机工程与设计,2014,35(11):4034-4039. 被引量：3
4伊.达瓦,米尔阿迪力江.麦麦提.丝绸之路经济带相似语言信息横向处理通信技术的研究[J].新疆师范大学学报（自然科学版）,2014,33(4):66-74.
5肖雨,崔荣一,怀丽波.一种融合位置信息的字符串相似度度量方法[J].计算机应用研究,2015,32(11):3287-3290. 被引量：3
6李晓,蒋同海,周喜,王磊,杨雅婷.维汉机器翻译关键技术研究概述[J].网络新媒体技术,2016,5(1):19-25. 被引量：1
7王正丽,陈笑蓉.基于规则的彝汉双语调序模型研究[J].贵州大学学报（自然科学版）,2016,33(1):58-62. 被引量：1
8孔金英,温政阳,杨雅婷,王磊,李晓.面向维汉机器翻译的语料筛选技术研究[J].计算机应用研究,2016,33(12):3654-3657. 被引量：2
9吐尔根.依布拉音,卡哈尔江.阿比的热西提,艾山.吾买尔,买合木提.买买提.中亚语言自然语言处理综述[J].中文信息学报,2018,32(5):1-13. 被引量：6
10郝越.谈“在线网络机器翻译”与“人工翻译”的互补关系[J].河北能源职业技术学院学报,2019,19(2):39-42.

1杜金华,张喜媛.特定句法增强的SMT调序模型[J].西安理工大学学报,2015,31(3):277-281.
2陈科海,周喜,杨雅婷,米成刚.基于粘着性模糊规则的维汉机器翻译最大熵调序研究[J].计算机应用研究,2013,30(9):2587-2590. 被引量：2
3杨南,李沐.基于神经网络的统计机器翻译的预调序模型[J].中文信息学报,2016,30(3):103-110. 被引量：5
4李鹏,刘洋,孙茂松.层次短语翻译的神经网络调序模型[J].清华大学学报（自然科学版）,2014,54(12):1529-1533. 被引量：2
5郭俊博,张喜媛,杜金华.N-Best句法知识增强的统计机器翻译预调序模型[J].计算机工程与应用,2016,52(17):160-165. 被引量：1
6梁华参,赵铁军.统计机器翻译中双语语料的过滤及词对齐的改进[J].智能计算机与应用,2013,3(4):10-13. 被引量：3
7董兴华,周俊林,郭树盛,吐尔洪.吾司曼.基于短语的汉维/维汉统计机器翻译[J].计算机工程,2011,37(9):16-18. 被引量：15
8薛永增,李生,赵铁军,杨沐昀.短语统计机器翻译的句法调序模型[J].通信学报,2008,29(1):7-14. 被引量：6
9牛萍,黄德根.TF-IDF与规则相结合的中文关键词自动抽取研究[J].小型微型计算机系统,2016,37(4):711-715. 被引量：35
10罗智勇 ,宋柔 .一种基于可信度的人名识别方法[J].中文信息学报,2005,19(3):67-72. 被引量：20

高技术通讯

2009年第5期

浏览历史

内容加载中请稍等...

一种基于短语的汉蒙统计机器翻译与调序模型被引量：3

参考文献15

二级参考文献54

共引文献30

同被引文献47

引证文献3

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

一种基于短语的汉蒙统计机器翻译与调序模型 被引量：3

参考文献15

二级参考文献54

共引文献30

同被引文献47

引证文献3

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

一种基于短语的汉蒙统计机器翻译与调序模型被引量：3