期刊文献+

基于编辑距离的中文组织机构名简称-全称匹配算法 被引量:14

A Chinese organization′s full name and matching abbreviation algorithm based on edit-distance
原文传递
导出
摘要 在面对中文语言环境下组织机构名简称-全称匹配这一具体问题时,经典的基于编辑距离进行字符串相似匹配方法的实用性有所下降。基于编辑距离的思想,提出了一种改进匹配算法:首先对简称和全称进行分词,以切合中文的语法结构特点;之后结合重定义的词汇语义相似度度量方法,修改编辑操作权重,并通过自适应学习的方式进一步修正;最后选择与简称编辑距离最小的全称作为匹配结果。实验结果表明,该算法匹配准确率比原始方法有较大提升。 When dealing with the specific problem of a Chinese organization′s full name and matching abbreviation,the traditional string matching algorithm based on edit-distance performs poorly.A new algorithm,also based on edit-distance,was provided.The improvements include the following steps:(1) making the Chinese word segmentation fit the Chinese grammatical structure features,(2) modifying the edit-operation weights with the redefined semantic similarity,(3) adjusting these weights by adaptive learning,and(4) choosing the full name with minimum edit-distance as the matching result.Experimental results show that our algorithm can effectively achieve higher abbreviation-full name matching accuracy.
出处 《山东大学学报(理学版)》 CAS CSCD 北大核心 2012年第5期43-48,共6页 Journal of Shandong University(Natural Science)
基金 国家"八六三"高技术研究发展计划基金资助项目(2009AA01Z136) 国家自然科学基金资助项目(90812001) 国家教育部"211工程"中国高等教育文献保障系统(CALIS)三期建设项目
关键词 文本挖掘 机器学习 编辑距离 组织机构名 简称-全称匹配 text mining machine learning edit distance organization name abbreviation-full name match
作者简介 作者简介:黄林晟(1988-),男,硕士研究生,主要研究方向为数字图书馆和数字博物馆.Email:lshuang1101@gmail.com
  • 相关文献

参考文献9

  • 1NIRENBURG S, DOMASHNEV C, GRANNES D J. Two approaches of matching in example-based machine translation [J].//Proceedings of the 5th International Conference on Theoretical and Methodological Issues in Machine Translation. [S l. ] : [s. n. ], 1993:47-57.
  • 2RISTAD E S, YIANILOS P N. Learning string-edit distance [J]. IEEE PAMI, 1998, 20(5) :522-532.
  • 3SALTON G, WONG A, YANG Chungshu. A vector space model for automatic indexing [J]. Communications of the ACM, 1995, 18( 11 ) :613-620.
  • 4LI Sujian, ZHANG Jian, HUANG Xiong, et al. Semantic computation in Chinese question-answering system [J ]. J Comput Sci Technol, 2002, 17 (6) :933-939.
  • 5CHATTERJEE N. A statistical approach for similarity measurement between sentences for EBMT [ C ]//Proceedings of Symposium on Translation Support Systems. Washington: IEEE Computer Society, 1999:15-17.
  • 6李彬,刘挺,秦兵,李生.基于语义依存的汉语句子相似度计算[J].计算机应用研究,2003,20(12):15-17. 被引量:127
  • 7车万翔,刘挺,秦兵,李生.基于改进编辑距离的中文相似句子检索[J].高技术通讯,2004,14(7):15-19. 被引量:65
  • 8刁兴春,谭明超,曹建军.一种融合多种编辑距离的字符串相似度计算方法[J].计算机应用研究,2010,27(12):4523-4525. 被引量:41
  • 9钟良伍,郑方.基于中文机构名简称的检索方法研究[J].中文信息学报,2007,21(1):38-42. 被引量:7

二级参考文献28

  • 1刘海涛.依存语法和机器翻译[J].语言文字应用,1997(3):91-95. 被引量:44
  • 2郭艳华,周昌乐.一种汉语语句依存关系网协动生成方法研究[J].杭州电子工业学院学报,2000,20(4):24-32. 被引量:11
  • 3车万翔 等.面向依存文法分析的搭配抽取方法研究[A]..全国第六届计算语言学联合学术会议[C].,2001..
  • 4穗志方 俞士汶.基于骨架依存树的语句相似度计算模型[A]..中文信息处理国际会议(ICCIP''98)[C].,1998..
  • 5曹建军 刁兴春 杜鷁等.信息质量研究框架概述.现代军事通信,2009,17(4):55-62.
  • 6LEE M L,LING T W,LOW W L.IntelliClean:a knowledge-based intelligent data cleaner[C] //Proc of the 6th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.Boston:ACM Press,2000:290-294.
  • 7LEVENSHTEIN V I.Binary codes capable of correcting deletions,insertions and reversals[J].Soviet Physics Doklady,1966,10:707-710.
  • 8LIANG Jin,CHEN Li,MEHROTRA S.Efficient record linkage in large data sets[C] //Proc of the 8th International Conference on Database System for Advanced Application.2003:137-146.
  • 9MONGE A E,ELKAN C P.An efficient domain-independent algorithm for detection approximately duplicate database records[C] //Proc of DMKD'97.1997:23-29.
  • 10董振东 董强.知网[EB/OL].http:∥www.keenage.com.,.

共引文献205

同被引文献126

引证文献14

二级引证文献29

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部