期刊文献+
共找到79篇文章
< 1 2 4 >
每页显示 20 50 100
基于改进TextRank的科技文本关键词抽取方法 被引量:6
1
作者 杨冬菊 胡成富 《计算机应用》 CSCD 北大核心 2024年第6期1720-1726,共7页
针对科技文本关键词抽取任务中抽取出现次数少但能较好表达文本主旨的词语效果差的问题,提出一种基于改进TextRank的关键词抽取方法。首先,利用词语的词频-逆文档频率(TF-IDF)统计特征和位置特征优化共现图中词语间的概率转移矩阵,通过... 针对科技文本关键词抽取任务中抽取出现次数少但能较好表达文本主旨的词语效果差的问题,提出一种基于改进TextRank的关键词抽取方法。首先,利用词语的词频-逆文档频率(TF-IDF)统计特征和位置特征优化共现图中词语间的概率转移矩阵,通过迭代计算得到词语的初始得分;然后,利用K-Core(K-Core decomposition)算法挖掘KCore子图得到词语的层级特征,利用平均信息熵特征衡量词语的主题表征能力;最后,在词语初始得分的基础上融合层级特征和平均信息熵特征,从而确定关键词。实验结果表明,在公开数据集上,与TextRank方法和OTextRank(Optimized TextRank)方法相比,所提方法在抽取不同关键词数量的实验中,F1均值分别提高了6.5和3.3个百分点;在科技服务项目数据集上,与TextRank方法和OTextRank方法相比,所提方法在抽取不同关键词数量的实验中,F1均值分别提高了7.4和3.2个百分点。实验结果验证了所提方法抽取出现频率低但较好表达文本主旨关键词的有效性。 展开更多
关键词 科技文本 关键词抽取 TextRank K-Core图 平均信息熵
在线阅读 下载PDF
一种无需手工标注的半监督学习关键词抽取方法 被引量:2
2
作者 蔡茂东 沈国华 黄志球 《小型微型计算机系统》 CSCD 北大核心 2024年第1期69-74,共6页
关键词的自动抽取技术是为了满足信息时代人们对特定领域知识快速便捷获取的需求.它也是机器翻译、信息检索、知识图谱构建等应用场景中的关键基础问题和研究热点.监督学习方法的效果是建立在有现成的大量的带有准确标注的高质量的数据... 关键词的自动抽取技术是为了满足信息时代人们对特定领域知识快速便捷获取的需求.它也是机器翻译、信息检索、知识图谱构建等应用场景中的关键基础问题和研究热点.监督学习方法的效果是建立在有现成的大量的带有准确标注的高质量的数据集的前提上的,无法在低资源环境下快速运用.本文提出了一种考虑词频、词长以及词大小写特征的无监督算法以及结合了该无监督算法的自扩展迭代的半监督学习关键词抽取方法.半监督学习方法在同样无需手工标注关键词的前提下,相比无监督算法具有更高的F1值. 展开更多
关键词 半监督学习 无监督算法 自扩展迭代 低资源环境 关键词抽取
在线阅读 下载PDF
基于文本摘要的无监督关键词抽取方法
3
作者 尤泽顺 周喜 +2 位作者 董瑞 张洋宁 杨奉毅 《计算机工程与设计》 北大核心 2024年第9期2779-2784,共6页
为克服基于嵌入的关键词抽取方法在长文档上性能下降的问题,提出一种基于文本摘要的方法(summarization-based document embedding rank,SDERank)。将句向量的加权和作为文档嵌入,根据每个句子与文档主题的语义相关度赋予权重。以往基... 为克服基于嵌入的关键词抽取方法在长文档上性能下降的问题,提出一种基于文本摘要的方法(summarization-based document embedding rank,SDERank)。将句向量的加权和作为文档嵌入,根据每个句子与文档主题的语义相关度赋予权重。以往基于嵌入的方法选择关键词时忽略候选词之间的关联,针对该问题,在SDERank的改进版SDERank+中,PageRank算法被用于提取候选词之间的共现权重作为相似度分数的修正。实验结果表明,在4个广泛使用的数据集上SDERank和SDERank+比之前最好的模型MDERank的F1分数平均高出2.2%和3.29%。 展开更多
关键词 自动关键词抽取 文本摘要 长文档建模 文档主题分析 语义处理 权重优化 向量相似性
在线阅读 下载PDF
Tag-TextRank:一种基于Tag的网页关键词抽取方法 被引量:58
4
作者 李鹏 王斌 +2 位作者 石志伟 崔雅超 李恒训 《计算机研究与发展》 EI CSCD 北大核心 2012年第11期2344-2351,共8页
关键词抽取是从文本中抽取代表性关键词的过程,在文本处理领域中具有重要的应用价值.利用一种近年来受到广泛关注的新的信息源——社会化标签(tag)——来提高网页关键词抽取的质量.通过对Tag数据进行统计分析,发现用户往往对多个在话题... 关键词抽取是从文本中抽取代表性关键词的过程,在文本处理领域中具有重要的应用价值.利用一种近年来受到广泛关注的新的信息源——社会化标签(tag)——来提高网页关键词抽取的质量.通过对Tag数据进行统计分析,发现用户往往对多个在话题上相关的网页使用同样的标签词,一个特定的文档可以通过其标注信息找到相关文档.在此基础上,提出了利用Tag进行关键词抽取的框架,并给出了一种具体的实现方法Tag-TextRank.该方法在TextRank基础上,通过目标文档中的每个Tag引入相关文档来估计词项图的边权重并计算得到词项的重要度,最后将不同Tag下的词项权重计算结果进行融合.在公开语料上的实验表明,Tag-TextRank在各项评价指标上均优于经典的关键词抽取方法TextRank,并具有很好的推广性. 展开更多
关键词 社会化标注 标签 关键词抽取 网页关键词抽取 TextRank
在线阅读 下载PDF
自动关键词抽取研究综述 被引量:97
5
作者 赵京胜 朱巧明 +1 位作者 周国栋 张丽 《软件学报》 EI CSCD 北大核心 2017年第9期2431-2449,共19页
自动关键词抽取是从文本或文本集合中自动抽取主题性或重要性的词或短语,是文本检索、文本摘要等许多文本挖掘任务的基础性和必要性的工作.探讨了关键词和自动关键词抽取的内涵,从语言学、认知科学、复杂性科学、心理学和社会科学等多... 自动关键词抽取是从文本或文本集合中自动抽取主题性或重要性的词或短语,是文本检索、文本摘要等许多文本挖掘任务的基础性和必要性的工作.探讨了关键词和自动关键词抽取的内涵,从语言学、认知科学、复杂性科学、心理学和社会科学等多个方面研究了自动关键词抽取的理论基础.从宏观、中观和微观角度,回顾和分析了自动关键词抽取的发展、技术和方法.针对目前广泛应用的自动关键词抽取方法,包括统计法、基于主题的方法、基于网络图的方法等,总结了其关键技术和研究进展.对自动关键词抽取的评价方式进行了分析,对自动关键词抽取面临的挑战和研究趋势进行了预测. 展开更多
关键词 自动关键词抽取 机器学习 统计 主题 语言网络图
在线阅读 下载PDF
基于主题特征的关键词抽取 被引量:30
6
作者 刘俊 邹东升 +1 位作者 邢欣来 李英豪 《计算机应用研究》 CSCD 北大核心 2012年第11期4224-4227,共4页
为了使抽取出的关键词更能反映文档主题,提出了一种新的词的主题特征(topic feature,TF)计算方法,该方法利用主题模型中词和主题的分布情况计算词的主题特征。并将该特征与关键词抽取中的常用特征结合,用装袋决策树方法构造一个关键词... 为了使抽取出的关键词更能反映文档主题,提出了一种新的词的主题特征(topic feature,TF)计算方法,该方法利用主题模型中词和主题的分布情况计算词的主题特征。并将该特征与关键词抽取中的常用特征结合,用装袋决策树方法构造一个关键词抽取模型。实验结果表明提出的主题特征可以提升关键词抽取的效果,同时验证了装袋决策树在关键词抽取中的适用性。 展开更多
关键词 关键词抽取 主题特征 主题模型 装袋决策树
在线阅读 下载PDF
一种基于LDA模型的关键词抽取方法 被引量:15
7
作者 朱泽德 李淼 +2 位作者 张健 曾伟辉 曾新华 《中南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2015年第6期2142-2148,共7页
为解决现有方法未能综合考察文档主题的全面性、关键词的可读性以及差异性,提出一种基于文档隐含主题的关键词抽取新算法TFITF。算法根据大规模语料产生隐含主题模型计算词汇对主题的TFITF权重并进一步产生词汇对文档的权重,利用共现信... 为解决现有方法未能综合考察文档主题的全面性、关键词的可读性以及差异性,提出一种基于文档隐含主题的关键词抽取新算法TFITF。算法根据大规模语料产生隐含主题模型计算词汇对主题的TFITF权重并进一步产生词汇对文档的权重,利用共现信息排序和选择相邻词汇形成候选关键短语,再使用相似性排除隐含主题一致的冗余短语。此外,从文档统计信息、词汇链和主题分析3方面来进行关键词抽取的对比测试,实验在1 040篇中文摘要及5 408个关键词构成的测试集上展开。结果表明,算法有效地提高文档关键词抽取的准确率与召回率。 展开更多
关键词 信息抽取 关键词抽取 LDA模型 主题相似性
在线阅读 下载PDF
融合多特征的TextRank关键词抽取方法 被引量:33
8
作者 李航 唐超兰 +1 位作者 杨贤 沈婉婷 《情报杂志》 CSSCI 北大核心 2017年第8期183-187,共5页
[目的/意义]关键词提取在自然语言处理领域有着广泛的应用,如何快速准确地实现关键词的提取已经成为文本处理的关键问题。目前关键词提取方法非常多,但准确率仍有待提升。为此,提出一种结合单一文档内部结构信息、词语对于单文档和文档... [目的/意义]关键词提取在自然语言处理领域有着广泛的应用,如何快速准确地实现关键词的提取已经成为文本处理的关键问题。目前关键词提取方法非常多,但准确率仍有待提升。为此,提出一种结合单一文档内部结构信息、词语对于单文档和文档集整体的重要性的关键词抽取方法。[方法/过程]首先,根据词语的平均信息熵特征计算词语对文档集整体的重要性,利用词语的词性、位置特征计算词语对单文档中的重要性。然后,通过神经网络训练的方式优化三个特征的权重分配实现特征的融合。最后,利用三个特征计算得到词语的综合权值来改进TextRank模型词汇节点的初始权重以及概率转移矩阵,再通过迭代法实现关键词的抽取。[结果 /结论]该研究方法结合了文档集整体信息和单文档自身信息,其关键词提取的准确率较传统TextRank方法、TFIDF-TextRank方法有了明显的提高。 展开更多
关键词 TextRank算法 关键词抽取 神经网络 平均信息熵
在线阅读 下载PDF
一种基于词汇链的关键词抽取方法 被引量:88
9
作者 索红光 刘玉树 曹淑英 《中文信息学报》 CSCD 北大核心 2006年第6期25-30,共6页
关键词在文献检索、自动文摘、文本聚类/分类等方面有十分重要的作用。词汇链是由一系列词义相关的词语组成,最初被用于分析文本的结构。本文提出了利用词汇链进行中文文本关键词自动标引的方法,并给出了利用《知网》为知识库构建词汇... 关键词在文献检索、自动文摘、文本聚类/分类等方面有十分重要的作用。词汇链是由一系列词义相关的词语组成,最初被用于分析文本的结构。本文提出了利用词汇链进行中文文本关键词自动标引的方法,并给出了利用《知网》为知识库构建词汇链的算法。通过计算词义相似度首先构建词汇链,然后结合词频与区域特征进行关键词选择。该方法考虑了词汇之间的语义信息,能够改善关键词标引的性能。实验结果表明,与单纯的词频、区域方法相比,召回率提高了7.78%,准确率提高了9.33%。 展开更多
关键词 计算机应用 中文信息处理 关键词标引 关键词抽取 词汇链 词义相似度 知网
在线阅读 下载PDF
基于语义联系的新闻网页关键词抽取 被引量:10
10
作者 谢飞 吴信东 +2 位作者 胡学钢 李星华 江兆中 《广西师范大学学报(自然科学版)》 CAS 北大核心 2009年第1期145-148,共4页
提出一种基于语义联系的新闻网页关键词抽取方法,不仅考虑了词语在知识库《知网》中的语义相似度,还考虑词语在具体上下文中的相关性,用词汇链将词语语义联系表示成图形式,在此基础上抽取出新闻网页关键词。对从网易网站选取120篇有核... 提出一种基于语义联系的新闻网页关键词抽取方法,不仅考虑了词语在知识库《知网》中的语义相似度,还考虑词语在具体上下文中的相关性,用词汇链将词语语义联系表示成图形式,在此基础上抽取出新闻网页关键词。对从网易网站选取120篇有核心提示的新闻网页进行测试,实验结果表明,所提出的方法比基于词频的关键词抽取方法和基于《知网》语义相似度构建词汇链的关键词抽取方法,在准确率和召回率上有很大的提高,当抽取关键词个数为3时,比基于词频方法的准确率和召回率分别提高了27.77%和21.38%。 展开更多
关键词 关键词抽取 词汇链 语义联系
在线阅读 下载PDF
关键词抽取方法的研究 被引量:41
11
作者 郑家恒 卢娇丽 《计算机工程》 EI CAS CSCD 北大核心 2005年第18期194-196,共3页
考虑了词频和位置两个因素,并采用非线性函数和“成对比较法”相结合的方法来计算候选词的权重,最终改进了候选词权值的计算,提高了关键词抽取的精度。
关键词 非线性函数 成对比较法 关键词抽取
在线阅读 下载PDF
专利文献中关键词抽取方法的改进 被引量:5
12
作者 刘峰 吴瑞红 +1 位作者 徐川 吕学强 《情报杂志》 CSSCI 北大核心 2014年第12期36-40,共5页
专利关键词是对专利文献的高度概括,正确提取专利文献中的关键词对于专利文献的分类、标引、聚类等具有重要意义。结合专利文献的特点,在目前已有方法的基础上,提出了专利文献中领域公共词提取方法、词素加权方法以及并列结构惩罚的方法... 专利关键词是对专利文献的高度概括,正确提取专利文献中的关键词对于专利文献的分类、标引、聚类等具有重要意义。结合专利文献的特点,在目前已有方法的基础上,提出了专利文献中领域公共词提取方法、词素加权方法以及并列结构惩罚的方法,将其应用到专利文献关键词抽取中。在过滤公共词的基础上,综合运用词在文献中出现的位置、词频、词素和并列结构计算词对文献主题的影响度,抽取专利文献中的关键词。实验结果表明,在抽取关键词个数为5-9个时,所提方法优于局部加权TF-IDF方法,验证了所提方法的有效性。 展开更多
关键词 专利文献 专利关键词 关键词抽取 公共词
在线阅读 下载PDF
基于带权语言网络的网页关键词抽取 被引量:5
13
作者 任克强 赵光甫 张国萍 《计算机工程与应用》 CSCD 北大核心 2008年第8期155-157,共3页
论述了网页文档带权语言网络的建立过程,给出了结合介数指标与紧密度指标的词语综合中心度度量方法,实验表明采用该方法的关键词抽取结果能够很好地符合网页主题。
关键词 网页 语言网络 关键词抽取 中心度
在线阅读 下载PDF
基于多特征的中文关键词抽取方法 被引量:6
14
作者 杨颖 戴彬 《计算机应用与软件》 CSCD 北大核心 2014年第11期109-112,共4页
关键词抽取是信息检索、文本分类、文本聚类以及自动文摘生成等技术的基础。在分析传统中文关键词抽取方法不足的基础上,提出一种基于多特征的中文关键词提取方法。该方法在抽取中文关键词过程中,从词频、关联度、词性以及位置等多种特... 关键词抽取是信息检索、文本分类、文本聚类以及自动文摘生成等技术的基础。在分析传统中文关键词抽取方法不足的基础上,提出一种基于多特征的中文关键词提取方法。该方法在抽取中文关键词过程中,从词频、关联度、词性以及位置等多种特征来全面考查关键词,有效地避免了传统关键词提取方法产生的偏差。实验结果表明,与传统方法相比,该方法在不同测试集上关键词提取的平均召回率均得到明显提升。 展开更多
关键词 关键词抽取 词频 关联度 文本聚类
在线阅读 下载PDF
改进的关键词抽取方法研究 被引量:4
15
作者 邓箴 包宏 《计算机工程与设计》 CSCD 北大核心 2009年第20期4677-4680,4769,共5页
在关键词抽取方法研究中,提出了多步骤的,针对任意领域的文本关键词抽取方法。该方法采用多元文法进行候选关键词抽取,提出了基于语言学特征的扩展tf/idf关键词的加权计算方法,以及能够抽取未登录词的关键词的方法和对关键词抽取进行优... 在关键词抽取方法研究中,提出了多步骤的,针对任意领域的文本关键词抽取方法。该方法采用多元文法进行候选关键词抽取,提出了基于语言学特征的扩展tf/idf关键词的加权计算方法,以及能够抽取未登录词的关键词的方法和对关键词抽取进行优化的策略。首次提出了用支持向量机对最后的抽取结果进行优化。实验结果表明,该方法与单纯的tf/idf算法相比,具有更高的查准率和查全率。 展开更多
关键词 关键词抽取语言学特征 特征拟合 多元文法 支持向量机
在线阅读 下载PDF
通用语料的眼动数据对微博关键词抽取的性能提升探究 被引量:3
16
作者 章成志 胡少虎 张颖怡 《情报学报》 CSSCI CSCD 北大核心 2021年第4期375-386,共12页
眼动数据记录了浏览者在浏览信息时的眼球轨迹,已有研究依据眼动数据度量阅读者在不同单词上的注意力强弱,并进一步将该特征加入微博关键词抽取模型中,从而提高抽取模型的性能。然而,目前的微博关键词抽取模型仅考虑通用领域眼动数据的... 眼动数据记录了浏览者在浏览信息时的眼球轨迹,已有研究依据眼动数据度量阅读者在不同单词上的注意力强弱,并进一步将该特征加入微博关键词抽取模型中,从而提高抽取模型的性能。然而,目前的微博关键词抽取模型仅考虑通用领域眼动数据的总注视时长这一特征,尚未全面探究眼动数据对微博关键词抽取任务性能的影响。因此,本文将从眼动特征的选择、眼动特征与文本特征的组合这两个方面,全面考察通用语料的眼动数据对微博关键词抽取任务性能的影响。同时,由于眼动数据集与测试数据集在数据规模上相差较大,使得眼动特征过于稀疏,进而影响其作用的发挥,本文提出了一个眼动数据的扩充方案用于解决这一问题。 展开更多
关键词 眼动数据 关键词抽取 序列标注 深度学习 注意力机制
在线阅读 下载PDF
基于语义扩展模型的中文网页关键词抽取 被引量:4
17
作者 汪洋 帅建梅 《计算机工程》 CAS CSCD 2012年第22期163-166,共4页
提出一种基于语义扩展模型、分步骤的无监督关键词抽取方法。选择词语的网页结构特征、词性、词长、TF-IDF值等特征,通过聚类算法抽取候选关键词。根据n-gram语言模型理论,引入邻接变化数等特征构建基于词的语义扩展模型,采用无监督方... 提出一种基于语义扩展模型、分步骤的无监督关键词抽取方法。选择词语的网页结构特征、词性、词长、TF-IDF值等特征,通过聚类算法抽取候选关键词。根据n-gram语言模型理论,引入邻接变化数等特征构建基于词的语义扩展模型,采用无监督方法将候选关键词扩展为关键词串。实验结果表明,该方法能有效改善针对未登录词及短语的抽取结果,提高中文网页关键词抽取结果的质量。 展开更多
关键词 中文网页关键词抽取 语义扩展模型 邻接变化数 聚类算法 n—gram语言模型
在线阅读 下载PDF
基于自动文本分类的关键词抽取算法 被引量:18
18
作者 张虹 《计算机工程》 CAS CSCD 北大核心 2009年第12期145-147,共3页
分析现有几种中文分词方法,提出一种关键词抽取算法。以词语的权重公式为中心,利用遗传算法训练、优化公式中的参数,得到一组适合中文文本的参数,提高文章子主题划分的精度。实验分析表明,该算法能将抽取系统中的命名实体有效地切分出来... 分析现有几种中文分词方法,提出一种关键词抽取算法。以词语的权重公式为中心,利用遗传算法训练、优化公式中的参数,得到一组适合中文文本的参数,提高文章子主题划分的精度。实验分析表明,该算法能将抽取系统中的命名实体有效地切分出来,准确完成抽取关键词的工作,并具有一定的通用性。 展开更多
关键词 文本分类 分词技术 关键词抽取 遗传算法
在线阅读 下载PDF
基于关键词抽取的自动文摘算法 被引量:11
19
作者 蒋效宇 《计算机工程》 CAS CSCD 2012年第3期183-186,共4页
针对生成文摘内容不完整的问题,利用相邻词的共现频率进行未登录词识别,提出一种通过词汇链的构建进行中文关键词抽取和文摘生成的算法,并给出一种采用《知网》为知识库构建词汇链的方法。通过计算词义相似度构建词汇链,结合词汇所在词... 针对生成文摘内容不完整的问题,利用相邻词的共现频率进行未登录词识别,提出一种通过词汇链的构建进行中文关键词抽取和文摘生成的算法,并给出一种采用《知网》为知识库构建词汇链的方法。通过计算词义相似度构建词汇链,结合词汇所在词汇链的强度、信息熵和出现位置等属性,进行关键词抽取和句子重要度计算。实验结果表明,与已有算法相比,该算法能够提高生成摘要的召回率和准确率。 展开更多
关键词 自动文摘 向量空间模型 关键词抽取 词汇链 未登录词识别
在线阅读 下载PDF
基于舆情新闻的中文关键词抽取综述 被引量:10
20
作者 杨文忠 丁甜甜 +1 位作者 康鹏 卜文秀 《计算机工程》 CAS CSCD 北大核心 2023年第3期1-17,共17页
基于舆情事件的关键词抽取算法作为舆情监测的基础技术之一,其目的是在不同的舆情事件中抽取出人们关注的核心词汇,从而快速了解新闻内容。随着深度学习的发展,传统的无监督关键词抽取技术和有监督算法中的分类模型已经逐渐被基于深度... 基于舆情事件的关键词抽取算法作为舆情监测的基础技术之一,其目的是在不同的舆情事件中抽取出人们关注的核心词汇,从而快速了解新闻内容。随着深度学习的发展,传统的无监督关键词抽取技术和有监督算法中的分类模型已经逐渐被基于深度学习的序列标注模型所替代。梳理无监督关键词抽取的限制性、分类模型在关键词抽取中的优势与不足、以及现有的深度学习对关键词抽取技术发展的帮助,重点分析整体关键词抽取技术的发展中卷积神经网络、循环神经网络等深度学习的关键词抽取方法,并归纳现有方法的优缺点与发展趋势。此外,深度学习虽然在关键词抽取领域发挥了重要的作用,但其自身也存在着依赖大规模带标签样本、训练时间长与复杂度高等缺陷,需要在未来发展中进行解决。为确保分析过程的真实性,利用6个舆情新闻数据集和2个小型数据集进行实验复现,实验结果与文中理论分析一致。在此基础上,对关键词抽取技术及其所面临的困难和挑战进行梳理和分析,并针对现存问题对该领域的发展前景加以展望。 展开更多
关键词 舆情监测 关键词抽取 核心词汇 深度学习 自然语言处理
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部