基于字符层马尔科夫模型的多语种识别被引量：5

Multiple Language Identification Based on Character-level Markov Models

在线阅读下载PDF

导出

摘要语种识别是机器翻译等多语种语言处理任务的必要预处理过程。但双字节编码语种的识别,如中文、日文等,尚未被充分研究和试验。本文采用 Markov 语言模型,提出并测试了一种有效的基于 EM 的训练算法。同时,给出了性能分析和与其他算法的比较。 Language identification is a necessary pre-process in machine translation and other muhi-language applications, but no experiments hase yet been reported on double-byte encoded languages, such as Chinese and Japanese. An efficient EM based training algorithm on Markov language model is proposed and evaluated. The performance analysis and comparison with other algorithms are also presented.

作者冯冲黄河燕陈肇雄张亮

机构地区中国科大计算机系中科院计算机语言信息工程中心

出处《计算机科学》 CSCD 北大核心 2006年第1期226-228,235,共4页 Computer Science

基金受国家自然科学基金(编号60272088)资助。

关键词字符层马尔科夫模型语种识别机器翻译多语种马尔科夫模型识别字符 MARKOV 训练算法预处理过程 Character based markov models, Language identification, Machine translation

分类号 TP391.1 [自动化与计算机技术—计算机应用技术] TP391.41 [自动化与计算机技术—计算机应用技术]

作者简介冯冲博士研究生，主要研究方向为统计方法的多语种信息抽取和机器翻译。黄河燕研究员，主要研究方向为机器翻译。陈肇雄研究员，主要研究方向为机器翻译。张亮博士研究生，主要研究方向为自动问答系统。

引文网络
相关文献

参考文献7

1Cavnar W B,Trenkle J M. N gram based text categorization. In 1994 Symposium on Document Analysis and Information Retrieval in Las Vegas , 1994.
2Ted D. Statistical Identification of Language : [Technical report CRL MC12-94 273]. Computing Research Lab, New Mexico State University, 1994.
3Jelinek F, Mercer R L. Interpolated estimation of Markov source parameters from sparse data. In: Proc. of the Workshop on Pattern Recognition in Practice, Amsterdam, The Netherlands:North Holland, 1980.
4Dempster A, Laird N,Rubin D. Maximum-likelihood from Ineomplele Data via the EM algorithm. J. Royal Statist. Soe. Ser.B. 1977(39) : 278-286.
5黄河燕,陈肇雄.基于多策略的交互式智能辅助翻译平台总体设计[J].计算机研究与发展,2004,41(7):1266-1272. 被引量：12
6Goodman J T. A Bit of Progress in Language Modeling Extended Version : [Technical Report MSR-TR-2001-72]. Microsoft Research, Redmond, July 2004.
7Chelba C. Exploiting Syntactic Structure for Natural Language Modeling:[Phd Thesis]. Johns Hopkins University, 2004.

二级参考文献2

1陈肇雄,高庆狮.智能化英汉机译系统IMT/EC[J].中国科学（A辑）,1989,20(2):186-194. 被引量：16
2黄河燕,陈肇雄,宋继平.一种人机互动的多策略机器翻译系统IHSMTS的设计与实现原理[J].中文信息学报,1999,13(5):43-50. 被引量：11

共引文献11

1冯冲,陈肇雄,黄河燕,王江伟.最大熵模型的树-栅格最优N解码算法[J].计算机科学,2005,32(10):167-169. 被引量：1
2冯冲,陈肇雄,黄河燕.采用主动学习策略的组织机构名识别[J].小型微型计算机系统,2006,27(4):710-714. 被引量：12
3冯冲,陈肇雄,黄河燕,张亮,王江伟.基于条件随机域的复杂最长名词短语识别[J].小型微型计算机系统,2006,27(6):1134-1139. 被引量：16
4崔启亮.论机器翻译的译后编辑[J].中国翻译,2014,35(6):68-73. 被引量：203
5仲济建.团队翻译流程中存在的问题及其对策[J].淮海工学院学报（人文社会科学版）,2016,14(1):65-67.
6郭胜国,邢丹丹.基于词向量的句子相似度计算及其应用研究[J].现代电子技术,2016,39(13):99-102. 被引量：12
7冯全功,崔启亮.译后编辑研究:焦点透析与发展趋势[J].上海翻译,2016(6):67-74. 被引量：95
8白瑞芳.基于RNN编码器的交互式机器翻译平台控制技术[J].计算机测量与控制,2019,27(7):89-92. 被引量：7
9郭智莉,雷鹏飞.基于机辅翻译的译后编辑问题与对策研究[J].哈尔滨职业技术学院学报,2021(4):157-161. 被引量：5
10周兴华,李懿洋.计算机辅助翻译软件的译后编辑功能探究[J].北京第二外国语学院学报,2021,43(5):52-65. 被引量：6

同被引文献58

1杨达.医学诊断思维中的时空逻辑化方法[J].江西社会科学,1998,18(3):26-31. 被引量：2
2王妙娅,赖茂生.跨语言信息检索中的询问翻译方法及其研究进展[J].现代图书情报技术,2005(4):37-41. 被引量：14
3王昊.跨语言信息检索实现方法与关键技术探讨[J].情报杂志,2005,24(7):46-49. 被引量：15
4王昊.基于跨语言信息检索的数字图书馆系统模型[J].情报科学,2005,23(10):1573-1578. 被引量：10
5黄德才,戚华春.PageRank算法研究[J].计算机工程,2006,32(4):145-146. 被引量：69
6郭宇锋,黄敏.跨语言信息检索理论与应用研究[J].图书与情报,2006(2):79-81. 被引量：9
7吴丹.本体驱动的跨语言信息检索研究[J].现代图书情报技术,2006(5):22-26. 被引量：11
8张素芳.国外跨语言信息检索中的翻译歧义性问题研究综述[J].图书馆学研究,2006(6):72-75. 被引量：8
9徐正光,武楠,穆志纯.基于独立分量分析的人耳识别方法[J].计算机工程,2006,32(19):178-180. 被引量：7
10陈刚,陈莘萌.基于独立分量分析的语种识别方法[J].计算机工程,2006,32(24):17-19. 被引量：2

引证文献5

1郭华庚,赵英.跨语言信息检索研究与应用[J].现代情报,2008,28(9):142-145. 被引量：9
2孙耀,何明祥.基于跨语言信息检索的企业竞争情报收集系统模型的研究[J].现代情报,2010,30(11):12-15. 被引量：1
3倪耀群,曹鹏,许洪波,唐慧丰,程学旗.网络维吾尔文判别及其文本长度下界的探讨[J].中文信息学报,2012,26(6):109-115. 被引量：2
4王昊,李思舒,邓三鸿.基于N-Gram的文本语种识别研究[J].现代图书情报技术,2013(4):54-61. 被引量：6
5段尧清,林平,李施展.基于多类型分类器装袋技术的数据分类模型研究[J].情报科学,2019,37(4):59-65. 被引量：4

二级引证文献22

1朱榕,纪希禹.跨语言交互式检索在数字图书馆中的应用[J].图书馆学研究,2009(6):51-53. 被引量：1
2孙鹏飞.跨语言信息检索翻译消歧技术发展研究[J].医学信息学杂志,2009,30(7):1-5. 被引量：1
3孙耀,何明祥.基于跨语言信息检索的企业竞争情报收集系统模型的研究[J].现代情报,2010,30(11):12-15. 被引量：1
4徐李华.曲项向天歌──浅谈江苏鹅业发展[J].中国禽业导刊,2000,17(6):4-5.
5常亚波.跨语言信息检索在搜索引擎中的应用[J].中小企业管理与科技,2013(10):300-301.
6胡逸宬,陈峰.我国竞争情报搜集研究热点的可视化分析[J].情报杂志,2014,33(9):17-21. 被引量：1
7侯整风,张浩,张娜.基于字频分布的中文网页编码识别算法[J].计算机工程,2014,40(12):199-204. 被引量：2
8买买提依明.哈斯木,吾守尔.斯拉木,维尼拉.木沙江,努尔麦麦提.尤鲁瓦斯.基于统计专用字符的维、哈、柯文文种识别研究[J].中文信息学报,2015,29(2):111-117. 被引量：5
9买买提依明.哈斯木,吾守尔.斯拉木,维尼拉.木沙江,努尔麦麦提.尤鲁瓦斯.基于N元模型的维吾尔文文本分类技术研究[J].计算机应用研究,2015,32(7):1986-1988. 被引量：6
10马志强,张泽广,闫瑞,杨双涛.面向蒙古文主题的网络爬虫采集策略模型[J].北京工业大学学报,2015,41(7):1012-1019.

1王昊,李思舒,邓三鸿.基于N-Gram的文本语种识别研究[J].现代图书情报技术,2013(4):54-61. 被引量：6
2张凡,贺苏宁.基于支持向量机的多种语言话音识别研究[J].计算机应用,2004,24(S1):282-284. 被引量：3
3新媒体[J].中国海关,2016,0(11):83-83.

计算机科学

2006年第1期

浏览历史

内容加载中请稍等...

基于字符层马尔科夫模型的多语种识别被引量：5

参考文献7

二级参考文献2

共引文献11

同被引文献58

引证文献5

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

基于字符层马尔科夫模型的多语种识别 被引量：5

参考文献7

二级参考文献2

共引文献11

同被引文献58

引证文献5

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

基于字符层马尔科夫模型的多语种识别被引量：5