基于语义的关键词提取算法被引量：39

Semantically Improved Automatic Keyphrase Extraction

在线阅读下载PDF

导出

摘要关键词1提供了文档内容的概要信息,它们被使用在很多数据挖掘的应用中。在目前的关键词提取算法中,我们发现词汇层面(代表意思的词)和概念层面(意思本身)的差别导致了关键字提取的不准确,比如不同语法的词可能有着相同的意思,而相同语法的词在不同的上下文有着不同的意思。为了解决这个问题,这篇文章提出使用词义代替词并且通过考虑关键候选词的语义信息来提高关键词提取算法性能的方法。与现有的关键词提取方法不同,该方法首先通过使用消歧算法,通过上下文得到候选词的词义;然后在后面的词合并、特征提取和评估的步骤中,候选词义之间的语义相关度被用来提高算法的性能。在评估算法时,我们采用一种更为有效的基于语义的评估方法与著名的Kea系统作比较。在不同领域间的实验中可以发现,当考虑语义信息后,关键词提取算法的性能能够得到很大的提高。在同领域的实验中,我们的算法的性能与Kea++算法的相近。我们的算法没有领域的限制性,因此具有更好的应用前景。 Keyphrases provide semantic metadata producing an overview of the content of a document, they are used in many text-mining applications. In the process of keyphrases generation, we notice that the distinction between lexical level （term for meaning） and conceptual level （the meaning itself） can result in inaccuracy. In order to solve this problem, this paper proposes a new method that improves automatic keyphrase extraction by using semantic information of candidate keyphrases. Our key＇phrases extraction method, in contrast to current methods, outputs the senses set instead of terms set by using word sense disambiguation method, as sense has only one unique meaning. Semantic relatedness between senses of candidate keyphrases is taken into consideration in the stage of term conflation, feature calculation, and evaluation. We evaluate our semantically improved method against the well known Kea system by using a more effective semantically enhanced evaluation method. The inter-domain experiment shows that quality of keyphrases extraction can be improved significantly when semantic information is exploited. The intra-domain experiment shows our method is competitive with Kea＋＋ algorithm, and not domain-specific.

作者方俊郭雷王晓东

机构地区西北工业大学自动化学院

出处《计算机科学》 CSCD 北大核心 2008年第6期148-151,共4页 Computer Science

基金国家自然科学基金资助项目(60675015)资助

关键词关键词提取语义相关度消歧 Keyphrae extraction, Semantic relatedness, Word sense disambiguation

分类号 TP391 [自动化与计算机技术—计算机应用技术] TP311.13 [自动化与计算机技术—计算机软件与理论]

作者简介方俊博士生，主要从事语义网和数据挖掘研究；郭雷博士生导师，主要从事神经网络、模式识别和知识管理等；王晓东博士生，主要从事语义网和智能检索。

引文网络
相关文献

参考文献8

1Witten I H, Paynter G W, Frank E, et al. KEA: Practical automatic keyphrase extraction//Proc. DL '99. 1999:254-256
2Turney P D. Mining the Web for Lexical Knowledge to Improve Keyphrase Extraction: Learning from Labeled and Unlabeled Data. Technical Report ERB-1096. National Research Council Canada, 2002
3Fellbaum C. Wordnet.. An Electronic Lexical Database. Cambridge: MIT Press, 1998
4Medelyan O, Witten I H. Thesaurus Based Automatic Keyphrase Indexing//Proc. of the Joint Conference on Digital Libraries 2006. Chapel Hill, NC, USA, 2006 : 296-297
5Banerjee S, Pedersen T. Extended gloss overlaps as a measure of semantic relatedness//Proceedings of the Eighteenth International Joint Conference on Artificial Intelligence. Acapulco, 2003 : 805-810
6Pedersen T, Banerjee S, Patwardhan S. Maximizing Semantic Relatedness to Perform Word Sense Disambiguation. Supercomputing institute research report umsi 2005/25, University of Minnesota, 2005
7Lovins J B. Development of a stemming algorithm. Mechanical Translationand Computational Linguistics., 1968,11: 22-31 .
8Dougherty J ,Kohavi R,Sahami M. Supervised and unsupervised discretization of continuous features///Proceeding of ICML-95, 12th International Conference on Machine Learning. Lake Tahoe, US, 1995 : 194-202

同被引文献376

1熊文,朱咏贤.竞技体育之人文社会学研究的若干反思[J].西安体育学院学报,2003,20(6):15-17. 被引量：7
2张恒,杨文昭,屈景辉,卢虹冰,张亮,赵飞.基于词典和词频的中文分词方法[J].微计算机信息,2008,24(3):239-240. 被引量：20
3段小斌,林雯,阮百尧,陈基漓.一种基于三级索引词库结构的中文分词方法研究[J].计算机与数字工程,2007,35(7):47-49. 被引量：5
4刘云峰 ,齐欢 ,HU Xiang'en ,CAI Zhiqiang ,代建民 .基于潜在语义空间维度特性的多层文档聚类[J].清华大学学报（自然科学版）,2005,45(S1):1783-1786. 被引量：11
5仇晶,廖乐健.网络舆情与网络文化安全预警技术研究[J].信息网络安全,2008(6):59-61. 被引量：8
6钱爱兵,江岚.基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例[J].情报理论与实践,2008,31(6):945-950. 被引量：30
7何干俊.汉语音译词的多维考察[J].江西社会科学,2012,32(4):194-197. 被引量：4
8陶雪娇,胡晓峰,刘洋.大数据研究综述[J].系统仿真学报,2013,25(S1):142-146. 被引量：345
9李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：93
10田娟,王崇骏,李静,陈兆乾.一个基于谱图分割的简单聚类算法[J].复旦学报（自然科学版）,2004,43(5):810-814. 被引量：3

引证文献39

1张红鹰.中文文本关键词提取算法[J].计算机系统应用,2009,18(8):73-76. 被引量：7
2邓箴,包宏.改进的关键词抽取方法研究[J].计算机工程与设计,2009,30(20):4677-4680. 被引量：4
3王舜燕,邱昌程,宁海波,张梅芬.构件搜索中需求描述关键词提取方法[J].计算机与数字工程,2009,37(11):36-39.
4张荣荣,毛宁,陈庆新.面向Internet的模具知识本体描述方法[J].计算机应用,2010,30(A01):44-46. 被引量：1
5管瑞霞,陆蓓.TFLD:一种中文文本关键词自动提取方法[J].机电工程,2010,27(9):123-126. 被引量：4
6石爱萍.一种基于语义距离的关键词获取方法[J].计算机与现代化,2010(12):18-20.
7许珂,蒙祖强,林啓峰.基于语义关联和信息增益的TFIDF改进算法研究[J].计算机应用研究,2012,29(2):557-560. 被引量：8
8苏丹,周明全,王学松,任玉芝.一种基于最少出现文档频的文本特征提取方法[J].计算机工程与应用,2012,48(10):164-166. 被引量：6
9吴洁明,周正喜,史建宜.面向视频场景内容检索的文本解析工具设计与实现[J].微型机与应用,2012,31(14):70-74. 被引量：1
10戴璐,丁立新,薛兵.一种摘要中隐含的知识片段的挖掘方案[J].计算机科学,2013,40(2):218-221. 被引量：2

二级引证文献199

1谢瑶瑶,邓三鸿,王昊,章学周.基于SAO语义挖掘的用户需求-专利技术匹配[J].数据分析与知识发现,2024,8(8):213-225. 被引量：2
2袁荷春.“倍速观看”的青年感知与归因分析——基于“知乎”网络文本的考察[J].山西青年职业学院学报,2023,36(1):21-25. 被引量：2
3吕璐成,罗文馨,许景龙,王莉莉,马丽婧,赵亚娟.专利情报方法、工具、应用研究进展及新技术应用趋势[J].情报学进展,2020(1):235-278. 被引量：10
4王昊,邓三鸿,苏新宁.基于字序列标注的中文关键词抽取研究[J].现代图书情报技术,2011(12):39-45. 被引量：7
5张荣荣,黄雄波.面向Internet的模具知识本体的构建研究[J].计算机与现代化,2012(4):218-222.
6李建平.手法治疗骶髂关节错缝52例[J].按摩与导引,2000,16(3):52-53.
7孙珠婷,顾倩颐.领域概念术语提取中特征项自动抽取方法[J].计算机工程与设计,2012,33(8):3189-3193. 被引量：3
8陈智敏,蒙祖强,林啟锋.基于要素提取关联词对的中文报道关系检测[J].计算机应用,2013,33(1):182-185. 被引量：2
9路永和,李焰锋.改进TF-IDF算法的文本特征项权值计算方法[J].图书情报工作,2013,57(3):90-95. 被引量：55
10林啟锋,蒙祖强,陈秋莲,陈智敏.结合语义和文本特征位串的高效KNN算法[J].计算机工程与设计,2013,34(7):2417-2421. 被引量：1

1郑晓刚,韩立新,白书奎,曾晓勤.一种基于信息增益和改进的PageRank的关键字提取方法[J].计算机应用与软件,2012,29(9):75-76.
2高俊波,栾翠菊,王晓峰.新的关键字提取算法研究[J].计算机工程与设计,2008,29(3):765-767. 被引量：6
3陈平,周昌乐,练睿婷.一种改进的KEA关键词抽取算法研究[J].心智与计算,2011,0(2):48-54. 被引量：6
4庄福振,罗平,何清,史忠植.迁移学习研究进展[J].软件学报,2015,26(1):26-39. 被引量：497
5张勇.中国人自己的云计算百迅龙“中国云”面世[J].电脑爱好者,2010(17):102-102.
6汪晓青.浅析分层技术在计算机软件开发中的应用[J].电脑迷,2016(10). 被引量：1
7王禹,赵跃龙.对等网络中全文检索系统的设计与实现[J].计算机工程与应用,2010,46(10):70-72. 被引量：2
8王利刚,赵政文,赵鑫鑫.搜索引擎中的反SEO作弊研究[J].计算机应用研究,2009,26(6):2035-2037. 被引量：14
9王永亮,郭巧,曹奇敏.一种基于同义词的中文关键词提取方法[J].江南大学学报（自然科学版）,2013,12(5):620-625. 被引量：2
10丁文娟.英汉互译中词汇层面的损失与补偿[J].黑龙江科技信息,2009(6):117-117.

计算机科学

2008年第6期

浏览历史

内容加载中请稍等...

基于语义的关键词提取算法被引量：39

参考文献8

同被引文献376

引证文献39

二级引证文献199

相关作者

相关机构

相关主题

浏览历史

基于语义的关键词提取算法 被引量：39

参考文献8

同被引文献376

引证文献39

二级引证文献199

相关作者

相关机构

相关主题

浏览历史

基于语义的关键词提取算法被引量：39