基于既定词表的自适应汉语分词技术研究被引量：4

Study of Self-adaptive Matching Method in Chinese Segmentation Based on Decided Vocabulary

在线阅读下载PDF

导出

摘要提出一种汉语分词算法,在给定的分词词表的基础上进行汉语分词时,不但能成功切分出分词词表中已有的词,而且能同时自动识别出分词词表中没有的词,即未登录词。与逆向最长匹配法以及其他未登录词识别算法进行的测试比较表明,该分词算法可以有效地解决大多数未登录词的识别问题,并且能减少分词错误,同时对分词算法的效率基本没有影响。 This paper presents an algorithm of self- adaptive matching method in Chinese segmentation. This algorithm not only identifies Chinese words in vocabulary successfully but also identifies unlisted words which are not in vocabulary on basis of decided vocabulary automatically. The test which compares this algorithm with Reverse Maximum Matching Method and some methods which identify unlisted words proves that it can resolve unknown words segmentation effectively, decreases mistakes of Chinese segmentation and has no effect on the efficiency of Chinese segmentation largely.

作者黄水清程冲

机构地区南京农业大学信息科技学院

出处《现代图书情报技术》 CSSCI 北大核心 2006年第5期13-17,共5页 New Technology of Library and Information Service

关键词自动分词新词识别未登录词 Automatic segmentation New word identification Unlisted words

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

作者简介 E-mail：sqhuang@njau．edu．cn

引文网络
相关文献

参考文献13

1孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
2孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：102
3宋柔.基于语料库和规则库的人名识别法[A]..计算语言学研究与应用[C].北京:北京语言学院出版社,1993..
4陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言文字应用,1999(3):103-109. 被引量：26
5张普张尧汉.现代汉语“有穷多层列举”自动分词方法的讨论[J].语言与计算机,1986,(3):61-64.
6马光志,李专.基于特征词的自动分词研究[J].华中科技大学学报（自然科学版）,2003,31(3):60-62. 被引量：4
7苏菲,王丹力,戴国忠.基于标记的规则统计模型与未登录词识别算法[J].计算机工程与应用,2004,40(15):43-45. 被引量：13
8秦文,苑春法.基于决策树的汉语未登录词识别[J].中文信息学报,2004,18(1):14-19. 被引量：23
9吕雅娟,赵铁军,杨沐昀,于浩,李生.基于分解与动态规划策略的汉语未登录词识别[J].中文信息学报,2001,15(1):28-33. 被引量：43
10岳涛.汉语自动分词技术的最新发展及其在信息检索中的应用[J].情报杂志,2005,24(4):55-57. 被引量：6

二级参考文献126

1孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
2陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言文字应用,1999(3):103-109. 被引量：26
3黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：84
4孙茂松,张磊.人机并存,“质”“量”合一—谈谈制定信息处理用汉语词表的策略[J].语言文字应用,1997(1):81-88. 被引量：7
5黄居仁,陈克健,陈凤仪,魏文真,张丽丽.《资讯处理用中文分词规范》设计理念及规范内容[J].语言文字应用,1997(1):94-102. 被引量：7
6刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
7董振东.汉语分词研究漫谈[J].语言文字应用,1997(1):109-114. 被引量：11
8孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
9许嘉璐.现状和设想——试论中文信息处理与现代汉语研究[J].中国语文,2000(6):490-496. 被引量：37
10徐秉铮,詹剑,贺前华.基于神经网络的分词方法[J].中文信息学报,1993,7(2):36-44. 被引量：15

共引文献287

1李斌,袁义国,芦靖雅,冯敏萱,许超,曲维光,王东波.第一届古代汉语分词和词性标注国际评测[J].中文信息学报,2023,37(3):46-53. 被引量：7
2周蕾,朱巧明,李培峰.一种基于统计和规则的未登录词识别方法[J].南京大学学报（自然科学版）,2005,41(z1):819-825. 被引量：1
3张泉,曾国荪,王伟,孙明军,谷华楠.基于改进的模糊C-均值聚类的信任文摘[J].计算机研究与发展,2008,45(z1):268-273. 被引量：2
4郑炜冬.多种方法融合的中文自动分词系统的设计与实现[J].韩山师范学院学报,2009,30(6):37-43.
5王军辉.汉语自动分词研究进展[J].魅力中国,2009(30):333-333.
6唐涛.基于文本挖掘的领域本体学习模型研究[J].图书情报工作,2010,54(S2):348-352. 被引量：3
7黄昌宁,孙茂松.中文信息处理最新成果的检阅——记新加坡中文电脑国际会议ICCC’96[J].当代语言学,1996(4):44-48. 被引量：1
8熊金泉,刘翌,王丹力.面向少儿多通道交互技术软件系统的研究[J].江西科学,2010,28(1):64-66.
9洪虹,李波.汉语自动分词研究进展[J].魅力中国,2009,0(22):114-114.
10于清,阿里甫.库尔班.微博语料分词及标注方法初探[J].新疆大学学报（自然科学版）,2013,30(1):81-86. 被引量：1

同被引文献23

1陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言文字应用,1999(3):103-109. 被引量：26
2黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：84
3孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
4孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：102
5董丽,侯汉清.中文期刊文献关键词标引的分析和改进[J].情报科学,2004,22(11):1355-1358. 被引量：14
6龚汉明,周长胜.汉语分词技术综述[J].北京机械工业学院学报,2004,19(3):52-55. 被引量：26
7张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
8秦浩伟,步丰林.一个中文新词识别特征的研究[J].计算机工程,2004,30(B12):369-370. 被引量：13
9李双龙,刘群,王成耀.基于条件随机场的汉语分词系统[J].微计算机信息,2006,22(10S):178-180. 被引量：15
10天津市统计局.2008天津统计年鉴[M].北京:中国统计出版社,2008:209.

引证文献4

1王超,黄水清,杨小莉.汉语文献文外频率加权与逆文献频率加权方法的比较[J].情报理论与实践,2007,30(2):275-277. 被引量：1
2陈平,刘晓霞,李亚军.基于字典和统计的分词方法[J].计算机工程与应用,2008,44(10):144-146. 被引量：13
3程冲,黄水清.自适应分词算法中的未登录词识别技术研究[J].情报学报,2009,28(4):530-536. 被引量：5
4田云臣,陈成勋,华旭峰.鱼类病害查询诊断系统研究[J].天津农学院学报,2010,17(4):44-47.

二级引证文献19

1黄水清,程冲,李志燕.开放式非相关文献知识发现方法在中文文献中的验证[J].情报理论与实践,2008,31(2):246-250. 被引量：9
2叶小榕,邵晴.语音识别技术在数字图书馆检索系统中的应用[J].科技导报,2008,26(18):75-79. 被引量：7
3曾建雄,李建华.基于预处理的Web资源质量评价[J].计算机系统应用,2009,18(12):33-36.
4黄魏,高兵,刘异,杨克巍.基于词条组合的中文文本分词方法[J].科学技术与工程,2010,10(1):85-89. 被引量：6
5黄魏,高兵,刘异,杨克巍.基于词条组合的军事类文本分词方法[J].计算机科学,2010,37(2):171-174. 被引量：2
6刘政怡,吴建国,李炜.基于交叉覆盖算法的中文分词[J].计算机工程与设计,2010,31(6):1355-1357. 被引量：4
7韩月阳,邓世昆,贾时银,李远方.基于字分类的中文分词的研究[J].计算机技术与发展,2011,21(7):29-31. 被引量：10
8唐籍涛,李飞,郭昌松.网络舆情监控中新词识别问题的研究[J].计算机技术与发展,2012,22(1):119-121. 被引量：8
9蒋建洪,赵嵩正,罗玫.词典与统计方法结合的中文分词模型研究及应用[J].计算机工程与设计,2012,33(1):387-391. 被引量：18
10张瑞霞,杨国增,吴慧欣.基于《知网》的汉语未登录词语义相似度计算[J].中文信息学报,2012,26(1):16-21. 被引量：8

1温滔,朱巧明,吕强.一种快速汉语分词算法[J].计算机工程,2004,30(19):119-120. 被引量：19
2李红霞,易丽萍.EM无监督汉语分词算法[J].电脑知识与技术,2009,5(4X):3207-3208.
3易丽萍,叶水生,吴喜兰.一种改进的汉语分词算法[J].计算机与现代化,2007(2):13-15. 被引量：2
4吴应良,韦岗,李海洲.一种基于N-gram模型和机器学习的汉语分词算法[J].电子与信息学报,2001,23(11):1148-1153. 被引量：23
5王显芳,杜利民.一种能够检测所有交叉歧义的汉语分词算法[J].电子学报,2004,32(1):50-54. 被引量：13
6田云臣,陈成勋,华旭峰.鱼类病害查询诊断系统研究[J].天津农学院学报,2010,17(4):44-47.
7陈耀东,王挺.基于有向图的双向匹配分词算法及实现[J].计算机应用,2005,25(6):1442-1444. 被引量：7

现代图书情报技术

2006年第5期

浏览历史

内容加载中请稍等...

基于既定词表的自适应汉语分词技术研究被引量：4

参考文献13

二级参考文献126

共引文献287

同被引文献23

引证文献4

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于既定词表的自适应汉语分词技术研究 被引量：4

参考文献13

二级参考文献126

共引文献287

同被引文献23

引证文献4

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于既定词表的自适应汉语分词技术研究被引量：4