摘要
基于统计的关键词抽取方法忽略了词语的深层语义信息,而词汇链的关键词抽取方法能弥补这一缺陷,但词汇链的构造需要计算语义相似度,而语义相似度的计算需要知识库的支持,提出了一种综合考虑词汇链和互信息模型的关键词抽取算法。首先对文本进行预处理,借助词汇链和互信息模型来表达词语间语义关系,以及对未包含词及相关联度高而相似度值不理想的关键词识别。实验结果表明:在准确率和召回率方面,较基于统计的和基于词汇链的关键词抽取算法均有所提高。
出处
《池州学院学报》
2013年第6期48-50,共3页
Journal of Chizhou University
基金
国家"863"高技术研究发展计划(2009AA010307)
安徽省高等学校省级优秀青年人才基金资助项目(2011SQRL161)
安徽省高等学校省级自然科学基金资助项目(KJ2011B109
KJ2011B108)
池州学院重点基金资助项目(2013ZR008)
作者简介
任莉莉(1979-),女,山东滕州人,池州学院数字与计算机科学系讲师,硕士,主要研究方向为人工智能,数据挖掘。