摘要
语种识别是机器翻译等多语种语言处理任务的必要预处理过程。但双字节编码语种的识别,如中文、日文等,尚未被充分研究和试验。本文采用 Markov 语言模型,提出并测试了一种有效的基于 EM 的训练算法。同时,给出了性能分析和与其他算法的比较。
Language identification is a necessary pre-process in machine translation and other muhi-language applications, but no experiments hase yet been reported on double-byte encoded languages, such as Chinese and Japanese. An efficient EM based training algorithm on Markov language model is proposed and evaluated. The performance analysis and comparison with other algorithms are also presented.
出处
《计算机科学》
CSCD
北大核心
2006年第1期226-228,235,共4页
Computer Science
基金
受国家自然科学基金(编号60272088)资助。
作者简介
冯冲 博士研究生,主要研究方向为统计方法的多语种信息抽取和机器翻译。
黄河燕 研究员,主要研究方向为机器翻译。
陈肇雄 研究员,主要研究方向为机器翻译。
张亮 博士研究生,主要研究方向为自动问答系统。