基于双字耦合度的中文分词交叉歧义处理方法被引量：17

A Chinese Overlapping Ambiguity Resolution Method Based on Coupling Degree of Double Characters

在线阅读下载PDF

导出

摘要本文提出了一种利用双字耦合度和t-测试差解决中文分词中交叉歧义的方法:首先利用词典找出所有的交叉歧义,然后用双字耦合度和t-测试差的线性叠加值来判断各歧义位置是否该切分。实验结果表明,双字耦合度和t-测试差的结合要优于互信息和t-测试差的结合,因此,用双字耦合度和t-测试差的线性叠加值来消除交叉歧义是一种简单有效的方法。 In this paper, two statistical measures-Coupling Degree of Double Characters （CDDC） and Difference of t- test （DT）, are applied for overlapping ambiguity resolution in Chinese word segmentation. First, all possible overlapping ambiguities are found out by using the segmentation dictionary, and then a simple linear combination of CD- DC and DT is used for ambiguity resolution. The experimental results show that our method performed better than the combination of Mutual Information of Double Characters and DT, which was proved to be a very effective method for overlapping ambiguity resolution in previous work.

作者王思力王斌

机构地区中国科学院计算技术研究所

出处《中文信息学报》 CSCD 北大核心 2007年第5期14-17,30,共5页 Journal of Chinese Information Processing

基金国家973计划资助项目(2004CB318109) 国家自然科学基金资助项目(60603094)

关键词计算机应用中文信息处理中文分词双字耦合度 t-测试差 computer application Chinese information processing Chinese word segmentation coupling degree of double characters difference of t-test

分类号 TP391 [自动化与计算机技术—计算机应用技术]

作者简介王思力（1981-），男，硕士生，主要研究方向为自然语言处理和信息检索；王斌（1972-），男，博士，副研究员，主要研究方向为信息检索和自然语言处理。

引文网络
相关文献

参考文献5

1陈小荷.现代汉语自动分析[M].北京:北京语言文化大学出版社,1999年.
2孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66
3孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
4贺敏.基于双字耦合度的未登录词识别研究[D].中科院计算所技术报告,2005.
5K.W.Church,P.Hanks and D.Hindle.Using statistics in lexical analysis[A].In:U.Zernik (ed.),Lexical Acquisition:Exploiting one-line resources to build a lexicon[C].Erlbaum.1991.115-164.

二级参考文献12

1黄萱菁,吴立德,王文欣,叶丹瑾.基于机器学习的无需人工编制词典的切词系统[J].模式识别与人工智能,1996,9(4):297-303. 被引量：24
2孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66
3Lai B Y，Proc of ROCLING-IV，1991年
4Zhang J S，Proc of ROCLING-IV，1991年
5王晓龙，科学通报，1989年，13页
6梁南元，中文信息学报，1987年，1期
7冯志伟，数理语言学，1985年
8Sproat R., Shih C.L.. A statistical method for finding word boundaries in Chinese text. Computer Processing of Chinese and Oriental Languages, 1993, 4(4): 336～249
9Sun Mao-Song, Shen Da-Yang, Tsou B K. Chinese word segmentation without using lexicon and hand-crafted training data. In: Proceedings of the 36th Annual Meeting of Association of Computational Linguistics and the 17th International Conference on Computational Linguistics, Montreal, Canada, 1998, 1265～1271
10Nie J.Y., Jin W.Y.. A hybrid approach to unknown word detection and segmentation of Chinese. In: Proceedings of International Conference on Chinese Computing, Singapore, 1994, 405～412

共引文献95

1肖升,胡金柱,姚双云,吴锋文.关系词搭配的联列分析[J].宁夏大学学报（人文社会科学版）,2009,31(6):75-79. 被引量：2
2许桢.基于语义网的文本分类系统设计与实现[J].硅谷,2009,2(18).
3张素娟,郑庆华,胡云华,孙霞.一种面向网络答疑的汉语切分歧义消除算法[J].计算机工程与应用,2004,40(25):55-58. 被引量：4
4孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
5冯志伟.汉字和汉语的计算机处理[J].当代语言学,2001,3(1):1-21. 被引量：23
6孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：102
7张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
8陈笑蓉,秦进,汪维家,陆汝占.中文文本校对技术的研究与实现[J].计算机科学,2003,30(11):53-55. 被引量：7
9费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68
10熊回香.全文检索中的汉语自动分词及其歧义处理[J].中国图书馆学报,2005,31(5):54-57. 被引量：6

同被引文献213

1张恒,杨文昭,屈景辉,卢虹冰,张亮,赵飞.基于词典和词频的中文分词方法[J].微计算机信息,2008,24(3):239-240. 被引量：20
2刘春辉,金顺福,刘国华,李颖.基于优化最大匹配与统计结合的汉语分词方法[J].燕山大学学报,2009,33(2):124-129. 被引量：9
3黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：84
4刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
5张云秋.汉语短语的分类问题[J].语文研究,1994(4):35-41. 被引量：4
6苏菲,王丹力,戴国忠.基于标记的规则统计模型与未登录词识别算法[J].计算机工程与应用,2004,40(15):43-45. 被引量：13
7刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：199
8孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
9金瑜,陆启明,高峰.基于上下文相关的最大概率汉语自动分词算法[J].计算机工程,2004,30(16):146-148. 被引量：8
10孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：102

引证文献17

1徐吉,朱兰娟.用于网络搜索引擎的中文分词消岐算法[J].微型电脑应用,2011(4):52-54.
2乔维,孙茂松.汉语交集型歧义切分字段关于专业领域的统计特性[J].中文信息学报,2008,22(4):10-18. 被引量：3
3姚继伟,赵东范.基于短语匹配的中文分词消歧方法[J].吉林大学学报（理学版）,2010,48(3):427-432. 被引量：6
4魏莎莎,熊海灵.中文分词中的歧义识别处理策略[J].微计算机信息,2010,26(30):190-192. 被引量：6
5奉国和,郑伟.国内中文自动分词技术研究综述[J].图书情报工作,2011,55(2):41-45. 被引量：105
6胡阿明,王卫东.中文分词歧义识别算法的优化[J].现代电子技术,2012,35(8):107-109. 被引量：2
7张禄彭,易绵竹,周云.中文歧义研究25年——以《中文信息学报》论文为例[J].中文信息学报,2012,26(4):73-84. 被引量：4
8朱亚东,张成,俞晓明,程学旗.基于逐点互信息的查询结构分析[J].中文信息学报,2012,26(5):33-39. 被引量：3
9吐尔地·托合提,艾克白尔·帕塔尔,艾斯卡尔·艾木都拉.维吾尔文无监督自动切分及无监督特征选择[J].模式识别与人工智能,2013,26(9):845-852. 被引量：3
10官新均,陈珂,苏旋,邹权.基于不同分词框架的学术论文翻译系统[J].厦门大学学报（自然科学版）,2013,52(6):781-786. 被引量：2

二级引证文献170

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：52
2黄微,刘熠,郭苏琳.网络舆情受众失范行为靶向引导的技术框架构建[J].知识管理论坛,2020(3):159-174. 被引量：1
3杨一帆,陈文亮.旅游场景下的实体别名抽取联合模型[J].中文信息学报,2020(6):55-63. 被引量：3
4王海涛,周秉鑫.基于社交软件的高校校园网络舆情分析[J].电信快报,2021(11):13-16. 被引量：1
5游家兴,张哲远.文以载道——文本分析研究评述与展望[J].当代会计评论,2022(2):32-59. 被引量：1
6于再富,袁满.融合BabelNet的多语言智能信息检索模型[J].吉林大学学报（信息科学版）,2020,38(1):99-106. 被引量：8
7奉国和,郑伟.国内中文自动分词技术研究综述[J].图书情报工作,2011,55(2):41-45. 被引量：105
8索娟娟,于宝英.基于灰熵的汉语机器翻译消歧研究[J].科技信息,2012(3):39-39.
9胡阿明,王卫东.中文分词歧义识别算法的优化[J].现代电子技术,2012,35(8):107-109. 被引量：2
10张丽媛.1984—2011年中国自动分词研究综述[J].农业图书情报学刊,2012,24(6):140-143.

1黄鑫,朱征宇,谢祈鸿.基于新统计量mt的汉语自动分词方法研究[J].微处理机,2008,29(1):107-110.
2于源,衣袭.中文全切分快速分词方法[J].大连铁道学院学报,2005,26(2):84-85. 被引量：4
3刘政怡,吴建国,李炜.基于交叉覆盖算法的中文分词[J].计算机工程与设计,2010,31(6):1355-1357. 被引量：4
4尹倩.基于语境信息的中文分词交叉歧义处理方法[J].重庆工商大学学报（自然科学版）,2016,33(5):20-24. 被引量：3
5吐尔地.托合提,维尼拉.木沙江,艾斯卡尔.艾木都拉.基于词间关联度度量的维吾尔文本自动切分方法[J].北京大学学报（自然科学版）,2016,52(1):155-164. 被引量：2
6贺敏,龚才春,张华平,程学旗.一种基于大规模语料的新词识别方法[J].计算机工程与应用,2007,43(21):157-159. 被引量：24
7尹倩.基于语义扩展度的中文分词交叉歧义处理方法[J].南昌工程学院学报,2016,35(1):56-60. 被引量：1
8黄鹏,张姝,陈玉华,文斌.一种基于无监督学习的交集型歧义处理改进方法[J].云南师范大学学报（自然科学版）,2015,35(6):45-49. 被引量：1
9陈平,刘晓霞,李亚军.基于字典和统计的分词方法[J].计算机工程与应用,2008,44(10):144-146. 被引量：13
10张硕果,汪成亮.结合CRFs的词典分词法[J].计算机系统应用,2010,19(11):115-118. 被引量：1

中文信息学报

2007年第5期

浏览历史

内容加载中请稍等...

基于双字耦合度的中文分词交叉歧义处理方法被引量：17

参考文献5

二级参考文献12

共引文献95

同被引文献213

引证文献17

二级引证文献170

相关作者

相关机构

相关主题

浏览历史

基于双字耦合度的中文分词交叉歧义处理方法 被引量：17

参考文献5

二级参考文献12

共引文献95

同被引文献213

引证文献17

二级引证文献170

相关作者

相关机构

相关主题

浏览历史

基于双字耦合度的中文分词交叉歧义处理方法被引量：17