维吾尔语不同词尾粒度对维汉词对齐的影响被引量：2

Effect of different Uyghur suffixes granularity on Uyghur-Chinese word alignment

在线阅读下载PDF

导出

摘要维吾尔语中,词的复杂形态是导致数据稀疏问题的主要原因,为降低数据稀疏对词对齐和机器翻译的不良影响,尽可能挖掘词尾携带的语义信息,提出对词尾采取"分离-丢弃"方案。根据统计分析,对维吾尔语词进行词干、词尾分离后,对其语义信息被明文翻译概率高的词尾采取"分离"方案,概率低的词尾采取"丢弃"方案。将该方案应用到维吾尔语名词和动词上,分等级构造9种模板进行实验,实验结果表明,该方案抑制了词干、词尾分离带来的句子长度过长问题,增加了维汉词对的数量,提高了维汉机器翻译质量,验证了该方案的有效性。 The main reason leads to data sparseness is rich morphological forms of words in Uyghur. To reduce the negative effects of data sparseness on Uyghur-Chinese word alignment and machine translation, a separating-dropping method was presen- ted. According to the statistical analysis, the affixes with highly translated probability were separated from stem and the affixes with lower translated probability were dropped. This method was applied to two main word classes including noun and verb in Uyghur, and 9 models were constructed for experiments. Results of experiments show the proposed method controls the length of the sentence caused by separating stem and affixes, the number of Uyghur-Chinese word pairs is increased, the quality of Uy- ghur-Chinese machine translation is improved, and the efficiency of this method is verified.

作者麦合甫热提麦热哈巴.艾力米莉万.雪合来提

机构地区新疆大学教务处新疆大学信息科学与工程学院

出处《计算机工程与设计》北大核心 2015年第8期2297-2302,共6页 Computer Engineering and Design

基金国家自然科学基金项目(61262061) 自治区科技计划基金项目(201423120)

关键词词对齐维汉机器翻译维汉词对齐词尾粒度形态分析 word alignment Uyghur-Chinese machine translation Uyghur-Chinese word alignment affixes granularity mor-phological analysis

分类号 TP391 [自动化与计算机技术—计算机应用技术]

作者简介麦合甫热提（1976－），女（维吾尔族），新疆塔城人，硕士，讲师，研究方向为自然语言处理、机器翻译；麦热哈巴·艾力（1973－），女（维吾尔族），新疆乌鲁木齐人，博士，副教授，CCF会员，研究方向为自然语言处理、机器翻译；米莉万·雪合来提（1984－），女（维吾尔族），新疆乌鲁木齐人，博士研究生，研究方向为机器翻译。E-mail：xmahpu76@163．com

引文网络
相关文献

参考文献11

1Wang Z, Lu Y, Liu Q. Multi-granularity word alignment and decoding for agglutinative language translation [C] //Procee- dings of MT SUMMIT, 2011. 360-367.
2Luong Minh-Tang, Preslav Nakov, Kan Min-Yen. A hybrid morpheme-word representation for machine translation for mor- phologically rich languages [C] //Proceedings of the Confen- rence on Empirical Methods of Natural Language Processing, 2010: 148-157.
3Bisazza A, Klasinas I, Cettolo M, et al. FBK@IWLST 2010 [C] //Proc of the 7th International WorkShop on Spoken Lan-guageTranslation, 2010: 53-58.
4麦热哈巴·艾力,王志洋,吐尔根·依布拉音.一种提高维吾尔语-汉语词语对齐的方法研究[J].小型微型计算机系统,2012,33(11):2551-2555. 被引量：9
5Papineni K, Roukos S, Ward T, et al. BLEU: A method for automatic evaluation of machine translation[C] //Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, 2002:311 -318.
6Stolcke A. SRILM-an extensible language modeling toolkit [C] //Proceedings of the International Conference on Spoken Language Processing, 2002: 901-904.
7Yeniterzi Reyyan, Kemal O{lazer. Syntax to-morphology map- ping in factored phrase-based statistical machine translation from English to Turkish [C] //Meeting of the Association for Corn-putational Linguistics, 2010: 454-464.
8El-kahlout, llknur Durgar, Kemal Oflazer. Exploiting morphology and local word reordering in English-to-Turkish phrase-based statis- tical machine translation [J]. Audio Speech language Processing IEEETransactions, 2010, 18 (6): 1313-1322.
9Ahmed E1 Kholy, Nizar Habash. Orthographic and morpho- logical processing for English - Arabic statistical machine trans- lation [J]. Machine translation, 2012, 26 (1-2). 25-45.
10Sara Stymne, Nicola Cancedda. Productive generation o{ com- pound words in statistical machine translation [C] //Procee- dings of the Sixth Workshop on Statistical Machine Translation, 2011: 250 260.

二级参考文献7

1吕学强,吴宏林,姚天顺.无双语词典的英汉词对齐[J].计算机学报,2004,27(8):1036-1045. 被引量：11
2力提甫.托乎提.电脑处理维吾尔语语音和谐律的可能性[J].中央民族大学学报（哲学社会科学版）,2004,31(5):108-113. 被引量：14
3张孝飞,陈肇雄,黄河燕,王建德.基于锚点词对的双语词对齐算法[J].小型微型计算机系统,2006,27(2):330-334. 被引量：10
4米海涛,熊德意,刘群.中文词法分析与句法分析融合策略研究[J].中文信息学报,2008,22(2):10-17. 被引量：13
5米热古丽.艾力,米吉提.阿不力米提,艾斯卡尔.艾木都拉.基于词法分析的维吾尔语元音弱化算法研究[J].中文信息学报,2008,22(4):43-47. 被引量：17
6黄书剑,奚宁,赵迎功,戴新宇,陈家骏.一种错误敏感的词对齐评价方法[J].中文信息学报,2009,23(3):88-94. 被引量：3
7朱聪慧,赵铁军,郑德权.基于无向图序列标注模型的中文分词词性标注一体化系统[J].电子与信息学报,2010,32(3):700-704. 被引量：12

共引文献26

1俞佳熠,钱卫东,徐永军.一种自动生成炼钢专家规则算法图的方法[J].冶金自动化,2023,47(S01):368-372. 被引量：1
2米莉万.雪合来提,麦热哈巴.艾力,吐尔根.依布拉音,姜文斌.维吾尔语词尾对汉维统计机器翻译影响的研究[J].计算机工程,2014,40(3):224-227. 被引量：8
3麦热哈巴.艾力,阿孜古丽.夏力甫,吐尔根.依布拉音.维吾尔语多词表达抽取方法研究[J].计算机工程与应用,2014,50(8):26-30. 被引量：3
4张海波,蔡洽吾,姜文斌,吕雅娟,刘群.基于联合音变还原和形态切分的形态分析方法[J].中文信息学报,2014,28(6):9-17. 被引量：3
5冶涛,张桂雷.基于Android系统的维吾尔语文字处理研究[J].科技创新与应用,2015,5(23):73-73.
6米莉万.雪合来提,刘凯,吐尔根.依布拉音.基于维吾尔语词干词缀粒度的汉维机器翻译[J].中文信息学报,2015,29(3):201-206. 被引量：12
7麦合甫热提,麦热哈巴.艾力,阿孜古丽.厦力甫.维吾尔语名词词尾对维汉词对齐的影响研究[J].新疆大学学报（自然科学版）,2015,32(4):469-474.
8赛迪亚古丽.艾尼瓦尔,向露,宗成庆,艾克白尔.帕塔尔,艾斯卡尔.艾木都拉.融合多策略的维吾尔语词干提取方法[J].中文信息学报,2015,29(5):204-210. 被引量：13
9如克燕木·吾斯曼江,买热哈巴·艾力,吐尔根·依布拉音.基于规则的维吾尔语、哈萨克语机器翻译[J].新疆大学学报(自然科学版),2016,33(3):338-342. 被引量：5
10阿力甫.阿不都克里木,李晓.基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类[J].计算机科学,2016,43(12):36-40. 被引量：9

同被引文献53

1彭凤,靳焱,韩涛.从汉维词汇多角度分析汉维思维方式的差异[J].新疆师范大学学报（哲学社会科学版）,2013,34(6):88-94. 被引量：7
2陈世明.试论维吾尔语部分词尾的演变[J].西北民族研究,1989(1):234-240. 被引量：1
3霍盛.试论维吾尔语形态变化的功能及其特点[J].新疆大学学报（哲学社会科学版）,1991,23(3):104-111. 被引量：3
4古丽拉.阿东别克,米吉提.阿布力米提.维吾尔语词切分方法初探[J].中文信息学报,2004,18(6):61-65. 被引量：39
5力提甫.托乎提.电脑处理维吾尔语语音和谐律的可能性[J].中央民族大学学报（哲学社会科学版）,2004,31(5):108-113. 被引量：14
6阿依克孜.卡德尔,开沙尔.卡德尔,吐尔根.依布拉音.面向自然语言信息处理的维吾尔语名词形态分析研究[J].中文信息学报,2006,20(3):43-48. 被引量：23
7玉素甫.艾白都拉,吾守尔.斯拉木,赛依提.阿不都拉.维语词法分析器研究成功[J].中文信息,1997,14(4):31-35. 被引量：5
8加米拉·吾守尔,瓦依提·阿布力孜,吐尔根·依布拉音.《现代维吾尔语语法信息词典》数据库建设的研究[A].中国计算语言学研究前沿进展(2009-2011)[C].2011.
9玛依热.依布拉音,米吉提.阿不里米提,艾斯卡尔.艾木都拉.基于最小编辑距离的维语词语检错与纠错研究[J].中文信息学报,2008,22(3):110-114. 被引量：11
10米热古丽.艾力,米吉提.阿不力米提,艾斯卡尔.艾木都拉.基于词法分析的维吾尔语元音弱化算法研究[J].中文信息学报,2008,22(4):43-47. 被引量：17

引证文献2

1刘娇,李胜胜.基于维吾尔语动词“dε-”的多角度运用研究[J].山东农业工程学院学报,2016,33(6):156-157.
2刘畅,阿布都克力木·阿布力孜,姚登峰,哈里旦木·阿布都克里木.维吾尔语形态分析研究综述[J].计算机工程与应用,2021,57(15):42-61. 被引量：3

二级引证文献3

1阿布都克力木·阿布力孜,刘畅,哈里旦木·阿布都克里木,郭文强.融合字符串特征的维吾尔语形态切分[J].计算机仿真,2022,39(7):257-262. 被引量：1
2阿孜古丽·夏力甫,王紫悦.基于句法语义的维吾尔语捆绑类手部动词词网建设[J].喀什大学学报,2023,44(2):55-63.
3张雨宁,李文卓,哈里旦木·阿布都克里木,阿布都克力木·阿布力孜.维吾尔语形态切分的元学习方法[J].计算机工程与应用,2023,59(11):98-104.

1Adobe Photoshop CS3：创建具有专业级标准的图像[J].数码印刷,2007(7):16-16.
2顾徐博君,虞思逸,金叶蒙,周坚华.基于数学形态学和Hough变换的复杂形态线状地物提取方法[J].遥感技术与应用,2014,29(4):689-694. 被引量：9
3孙乐,金友兵,杜林,孙玉芳.平行语料库中双语术语词典的自动抽取[J].中文信息学报,2000,14(6):33-39. 被引量：30
4李晓,蒋同海,周喜,王磊,杨雅婷.维汉机器翻译关键技术研究概述[J].网络新媒体技术,2016,5(1):19-25. 被引量：1
5刘高军,刘妍妍,付晓玲.基于分割线和区域特征的页眉页脚判别方法[J].北方工业大学学报,2013,25(1):17-24.
6韩瑞民,宋婕.采用数据库分离方案提高网上办公系统的运行效率[J].信息技术与信息化,2011(4):35-37.
7钟玉峰.基于平行语料库的文献术语抽取研究[J].黑龙江工程学院学报,2011,25(4):60-62. 被引量：1
8赵志靖.基于编辑距离的无序词表的对齐和定位[J].智能计算机与应用,2016,6(4):5-8.
9陈旭东,杜宇扬.基于应用层多播树的快速组群密钥更新[J].中国教育网络,2007(2):39-44.
10于士鹏.标识符和定位符分离方案研究[J].计算机技术与发展,2009,19(7):95-97. 被引量：2

计算机工程与设计

2015年第8期

浏览历史

内容加载中请稍等...

维吾尔语不同词尾粒度对维汉词对齐的影响被引量：2

参考文献11

二级参考文献7

共引文献26

同被引文献53

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

维吾尔语不同词尾粒度对维汉词对齐的影响 被引量：2

参考文献11

二级参考文献7

共引文献26

同被引文献53

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

维吾尔语不同词尾粒度对维汉词对齐的影响被引量：2