期刊文献+

基于双字耦合度的中文分词交叉歧义处理方法 被引量:17

A Chinese Overlapping Ambiguity Resolution Method Based on Coupling Degree of Double Characters
在线阅读 下载PDF
导出
摘要 本文提出了一种利用双字耦合度和t-测试差解决中文分词中交叉歧义的方法:首先利用词典找出所有的交叉歧义,然后用双字耦合度和t-测试差的线性叠加值来判断各歧义位置是否该切分。实验结果表明,双字耦合度和t-测试差的结合要优于互信息和t-测试差的结合,因此,用双字耦合度和t-测试差的线性叠加值来消除交叉歧义是一种简单有效的方法。 In this paper, two statistical measures-Coupling Degree of Double Characters (CDDC) and Difference of t- test (DT), are applied for overlapping ambiguity resolution in Chinese word segmentation. First, all possible overlapping ambiguities are found out by using the segmentation dictionary, and then a simple linear combination of CD- DC and DT is used for ambiguity resolution. The experimental results show that our method performed better than the combination of Mutual Information of Double Characters and DT, which was proved to be a very effective method for overlapping ambiguity resolution in previous work.
作者 王思力 王斌
出处 《中文信息学报》 CSCD 北大核心 2007年第5期14-17,30,共5页 Journal of Chinese Information Processing
基金 国家973计划资助项目(2004CB318109) 国家自然科学基金资助项目(60603094)
关键词 计算机应用 中文信息处理 中文分词 双字耦合度 t-测试差 computer application Chinese information processing Chinese word segmentation coupling degree of double characters difference of t-test
作者简介 王思力(1981-),男,硕士生,主要研究方向为自然语言处理和信息检索; 王斌(1972-),男,博士,副研究员,主要研究方向为信息检索和自然语言处理。
  • 相关文献

参考文献5

二级参考文献12

  • 1黄萱菁,吴立德,王文欣,叶丹瑾.基于机器学习的无需人工编制词典的切词系统[J].模式识别与人工智能,1996,9(4):297-303. 被引量:24
  • 2孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量:66
  • 3Lai B Y,Proc of ROCLING-IV,1991年
  • 4Zhang J S,Proc of ROCLING-IV,1991年
  • 5王晓龙,科学通报,1989年,13页
  • 6梁南元,中文信息学报,1987年,1期
  • 7冯志伟,数理语言学,1985年
  • 8Sproat R., Shih C.L.. A statistical method for finding word boundaries in Chinese text. Computer Processing of Chinese and Oriental Languages, 1993, 4(4): 336~249
  • 9Sun Mao-Song, Shen Da-Yang, Tsou B K. Chinese word segmentation without using lexicon and hand-crafted training data. In: Proceedings of the 36th Annual Meeting of Association of Computational Linguistics and the 17th International Conference on Computational Linguistics, Montreal, Canada, 1998, 1265~1271
  • 10Nie J.Y., Jin W.Y.. A hybrid approach to unknown word detection and segmentation of Chinese. In: Proceedings of International Conference on Chinese Computing, Singapore, 1994, 405~412

共引文献95

同被引文献213

引证文献17

二级引证文献170

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部