期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
海量数据集上基于特征组合的关键词自动抽取
被引量:
17
1
作者
张庆国
薛德军
+1 位作者
张振海
张君玉
《情报学报》
CSSCI
北大核心
2006年第5期587-593,共7页
关键词自动抽取的任务就是使用计算机自动地从文本中抽取能够高度有效表达文本主题的词汇。小规模训练集和测试集下的关键词自动抽取已经有诸多算法实现,但是大规模分布复杂的数据集上的关键词自动抽取却很少有学者提及。本文利用现有...
关键词自动抽取的任务就是使用计算机自动地从文本中抽取能够高度有效表达文本主题的词汇。小规模训练集和测试集下的关键词自动抽取已经有诸多算法实现,但是大规模分布复杂的数据集上的关键词自动抽取却很少有学者提及。本文利用现有的信息检索技术,对海量数据集上自动抽取关键词问题进行了研究,给出了一个基于特征组合的关键词自动抽取方法。该方法构造了一个大规模的关键词词典;基于TF×IDF值和其他特征,提出了更有效的关键词权重计算方法;根据关键词本身的特点,对候选关键词进行了后处理,使得抽取的关键词更符合读者的要求。本文的后续实验表明,该方法同基于Bayes和KNN等的机器学习方法相比,性能相当。使用自动评价和人工评价两种方法对抽取的关键词进行了评估。专业编辑对抽取结果的人工评价显示,约95%的自动抽取的关键词可以被专业编辑或者读者接受。
展开更多
关键词
关键词自动抽取
特征组合
海量数据集
TF×IDF
在线阅读
下载PDF
职称材料
题名
海量数据集上基于特征组合的关键词自动抽取
被引量:
17
1
作者
张庆国
薛德军
张振海
张君玉
机构
中国学术期刊(光盘版)电子杂志社清华同方光盘股份有限公司
中国
科学院研究生院数学系
出处
《情报学报》
CSSCI
北大核心
2006年第5期587-593,共7页
文摘
关键词自动抽取的任务就是使用计算机自动地从文本中抽取能够高度有效表达文本主题的词汇。小规模训练集和测试集下的关键词自动抽取已经有诸多算法实现,但是大规模分布复杂的数据集上的关键词自动抽取却很少有学者提及。本文利用现有的信息检索技术,对海量数据集上自动抽取关键词问题进行了研究,给出了一个基于特征组合的关键词自动抽取方法。该方法构造了一个大规模的关键词词典;基于TF×IDF值和其他特征,提出了更有效的关键词权重计算方法;根据关键词本身的特点,对候选关键词进行了后处理,使得抽取的关键词更符合读者的要求。本文的后续实验表明,该方法同基于Bayes和KNN等的机器学习方法相比,性能相当。使用自动评价和人工评价两种方法对抽取的关键词进行了评估。专业编辑对抽取结果的人工评价显示,约95%的自动抽取的关键词可以被专业编辑或者读者接受。
关键词
关键词自动抽取
特征组合
海量数据集
TF×IDF
Keywords
automatic keyword extraction, feature combination, massive data sets, TF × IDF
分类号
TP391.2 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
海量数据集上基于特征组合的关键词自动抽取
张庆国
薛德军
张振海
张君玉
《情报学报》
CSSCI
北大核心
2006
17
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部