期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
可应用于互联网的自学习中文关键词抽取算法 被引量:8
1
作者 于琨 糜仲春 蔡庆生 《中国科学技术大学学报》 CAS CSCD 北大核心 2002年第3期381-384,共4页
论文提出了一种自学习中文关键词抽取算法 ,该算法可以辅助实现互联网上的智能信息获取 ,从而有效解决互联网信息爆炸问题 .该算法现已用于课题组开发的互联网信息智能获取工具中 ,实验表明该算法的查全率与查准率较高 ,在互联网信息智... 论文提出了一种自学习中文关键词抽取算法 ,该算法可以辅助实现互联网上的智能信息获取 ,从而有效解决互联网信息爆炸问题 .该算法现已用于课题组开发的互联网信息智能获取工具中 ,实验表明该算法的查全率与查准率较高 ,在互联网信息智能获取中具有广阔的应用前景 . 展开更多
关键词 自学习关键词自动抽取算法 互联网 信息智能获取 中文信息处理 查全率 查准率
在线阅读 下载PDF
一种无需手工标注的半监督学习关键词抽取方法 被引量:1
2
作者 蔡茂东 沈国华 黄志球 《小型微型计算机系统》 CSCD 北大核心 2024年第1期69-74,共6页
关键词的自动抽取技术是为了满足信息时代人们对特定领域知识快速便捷获取的需求.它也是机器翻译、信息检索、知识图谱构建等应用场景中的关键基础问题和研究热点.监督学习方法的效果是建立在有现成的大量的带有准确标注的高质量的数据... 关键词的自动抽取技术是为了满足信息时代人们对特定领域知识快速便捷获取的需求.它也是机器翻译、信息检索、知识图谱构建等应用场景中的关键基础问题和研究热点.监督学习方法的效果是建立在有现成的大量的带有准确标注的高质量的数据集的前提上的,无法在低资源环境下快速运用.本文提出了一种考虑词频、词长以及词大小写特征的无监督算法以及结合了该无监督算法的自扩展迭代的半监督学习关键词抽取方法.半监督学习方法在同样无需手工标注关键词的前提下,相比无监督算法具有更高的F1值. 展开更多
关键词 半监督学习 无监督算法 自扩展迭代 低资源环境 关键词抽取
在线阅读 下载PDF
自动关键词抽取研究综述 被引量:96
3
作者 赵京胜 朱巧明 +1 位作者 周国栋 张丽 《软件学报》 EI CSCD 北大核心 2017年第9期2431-2449,共19页
自动关键词抽取是从文本或文本集合中自动抽取主题性或重要性的词或短语,是文本检索、文本摘要等许多文本挖掘任务的基础性和必要性的工作.探讨了关键词和自动关键词抽取的内涵,从语言学、认知科学、复杂性科学、心理学和社会科学等多... 自动关键词抽取是从文本或文本集合中自动抽取主题性或重要性的词或短语,是文本检索、文本摘要等许多文本挖掘任务的基础性和必要性的工作.探讨了关键词和自动关键词抽取的内涵,从语言学、认知科学、复杂性科学、心理学和社会科学等多个方面研究了自动关键词抽取的理论基础.从宏观、中观和微观角度,回顾和分析了自动关键词抽取的发展、技术和方法.针对目前广泛应用的自动关键词抽取方法,包括统计法、基于主题的方法、基于网络图的方法等,总结了其关键技术和研究进展.对自动关键词抽取的评价方式进行了分析,对自动关键词抽取面临的挑战和研究趋势进行了预测. 展开更多
关键词 自动关键词抽取 机器学习 统计 主题 语言网络图
在线阅读 下载PDF
基于机器学习的网页主题词自动抽取 被引量:4
4
作者 张永奎 赵辄谦 +1 位作者 陈鑫卿 白丽君 《计算机应用》 CSCD 北大核心 2003年第3期1-3,共3页
主题词在信息处理和信息检索过程中有广泛的用途 ,然而大量网页没有主题词 ,手工抽取主题词是一个繁重的过程。可以将主题词自动抽取看作是分类问题 ,充分利用网页的结构信息并且使用有监督的机器学习方法来自动地抽取网页中的主题词。
关键词 机器学习 网页 主题词 自动抽取 贝叶斯算法 信息处理 信息检索 计算机网络
在线阅读 下载PDF
基于优势演员-评论家算法的强化自动摘要模型 被引量:7
5
作者 杜嘻嘻 程华 房一泉 《计算机应用》 CSCD 北大核心 2021年第3期699-705,共7页
针对长文本自动摘要任务中抽取式模型摘要较为冗余,而生成式摘要模型时常有关键信息丢失、摘要不准确和生成内容重复等问题,提出一种面向长文本的基于优势演员-评论家算法的强化自动摘要模型(A2C-RLAS)。首先,用基于卷积神经网络(CNN)... 针对长文本自动摘要任务中抽取式模型摘要较为冗余,而生成式摘要模型时常有关键信息丢失、摘要不准确和生成内容重复等问题,提出一种面向长文本的基于优势演员-评论家算法的强化自动摘要模型(A2C-RLAS)。首先,用基于卷积神经网络(CNN)和循环神经网络(RNN)的混合神经网络的抽取器(extractor)来提取原文关键句;然后,用基于拷贝机制和注意力机制的重写器(rewriter)来精炼关键句;最后,使用强化学习的优势演员-评论家(A2C)算法训练整个网络,把重写摘要和参考摘要的语义相似性(BERTScore值)作为奖励(reward)来指导抽取过程,从而提高抽取器提取句子的质量。在CNN/Daily Mail数据集上的实验结果表明,与基于强化学习的抽取式摘要(Refresh)模型、基于循环神经网络的抽取式摘要序列模型(SummaRuNNer)和分布语义奖励(DSR)模型等模型相比,A2C-RLAS的最终摘要内容更加准确、语言更加流畅,冗余的内容有效减少,且A2C-RLAS的ROUGE和BERTScore指标均有提升。相较于Refresh模型和SummaRuNNer模型,A2C-RLAS模型的ROUGE-L值分别提高了6.3%和10.2%;相较于DSR模型,A2C-RLAS模型的F1值提高了30.5%。 展开更多
关键词 自动摘要模型 抽取式摘要模型 生成式摘要模型 编码器-解码器 强化学习 优势演员-评论家算法
在线阅读 下载PDF
基于元数据的教学资源本体学习研究
6
作者 贾小林 《科学技术与工程》 2008年第9期2402-2404,2410,共4页
以教育部网络课程为对象,在元数据基础上进行本体学习的研究,提出了基于元数据的半自动本体学习方法,并对学习算法和实现进行了阐述。该方法适当屏蔽了知识本身的多样性和复杂性,降低了本体学习研究的难度,同时却增加了本体学习的有效... 以教育部网络课程为对象,在元数据基础上进行本体学习的研究,提出了基于元数据的半自动本体学习方法,并对学习算法和实现进行了阐述。该方法适当屏蔽了知识本身的多样性和复杂性,降低了本体学习研究的难度,同时却增加了本体学习的有效性和实用性。 展开更多
关键词 自动 学习算法 概念抽取 知识体系
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部