期刊文献+

结合词义的文本特征词权重计算方法 被引量:10

Weight computing method for text feature terms by integrating word sense
在线阅读 下载PDF
导出
摘要 传统的基于向量空间模型的文本相似度计算方法,用TF-IDF计算文本特征词的权重,忽略了特征词之间的词义相似关系,不能准确地反映文本之间的相似程度。针对此问题,提出了结合词义的文本特征词权重计算方法,基于Chinese WordNet采用词义向量余弦计算特征词的词义相似度,根据词义相似度对特征词的TF-IDF权重进行修正,修正后的权重同时兼顾词频和词义信息。在哈尔滨工业大学信息检索研究室多文档自动文摘语料库上的实验结果表明,根据修正后的特征词权重计算文本相似度,能够有效地提高文本的类区分度。 Most of the existing methods to compute text similarity based on Vector Space Model (VSM) use TF-IDF scores as the weights of feature terms in text, which ignores the word sense relationships among feature terms and lead to inaccurate text similarity. To improve the accuracy of text similarities calculated by methods based on VSM, a new term weight computing method by integrating word sense was proposed in this paper. Firstly, word sense similarities among feature terms were computed based on the Chinese WordNet. And then, the TF-IDF weights were revised according to the word sense similarities for the purpose of reflecting both the frequency and the word sense of feature terms in text. The experimental results on the HIT IR-lab Multi-Document Summarization Corpus show that to use the weights calculated by the proposed method can efficiently improve the differentiation amon~ document clusters.
出处 《计算机应用》 CSCD 北大核心 2012年第5期1355-1358,1365,共5页 journal of Computer Applications
关键词 文本相似度 特征词权重 词义相似度 CHINESE WORDNET text similarity feature term weight words sense similarity Chinese WordNet
作者简介 李明涛(1984-),男,湖北襄阳人,硕士研究生,主要研究方向:社会网络分析、数据挖掘.电子邮箱lmtpph@126.com 罗军勇(1964-),男,江西南昌人,教授,主要研究方向:信息安全、数据挖掘. 尹美娟(1977-),女,安徽芜湖人,讲师,主要研究方向:社会网络分析、数据挖掘. 路林(1983-),女,河北邯郸人,硕士研究生,主要研究方向:社会网络分析、网络信息安全。
  • 相关文献

参考文献15

  • 1SALTON G,WONG A,YANG C S. A vector space model for automatic indexing[J].Communications of the ACM,1975,(11):613-620.
  • 2LI Y H,MCLEAN D,BANDAR Z A. Sentence similarity based on semantic nets and corpus statistics[J].IEEE Transactions on Knowledge and Data Engineering,2006,(08):1138-1150.
  • 3SELVI P,GOPALAN N P. Sentence similarity computation based on WordNet and corpus statistics[A].Washington,DC:IEEE Computer Society,2007.9-14.
  • 4孙宏纲,陆余良,刘金红,龚笔宏.基于HowNet的VSM模型扩展在文本分类中的应用研究[J].中文信息学报,2007,21(6):101-108. 被引量:8
  • 5RAMAGE D,RAFFERTY A N,MANNING C D. Random walks for text semantic similarity[A].Singapore:World Scientific Publishing Company,2009.23-31.
  • 6董振东;董强.查看详情.
  • 7Princeton University. WordNet-About WordNet[EB/OL].http://wordnet.princeton.edu/,2011.
  • 8GAD W K,KAMEL M S. PH-SSBM:Phrase semantic similarity based model for document clustering[A].Washington,DC:IEEE Computer Society,2009.197-200.
  • 9任姚鹏,陈立潮,张英俊,袁英.结合语义的特征权重计算方法研究[J].计算机工程与设计,2010,31(10):2381-2383. 被引量:20
  • 10东南大学计算机科学与工程学院.Chinese WordNet.

二级参考文献27

共引文献51

同被引文献74

引证文献10

二级引证文献39

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部