期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于分类关键词词频模型的地缘政治主题爬虫设计
被引量:
4
1
作者
魏勇
胡丹露
+1 位作者
郝晨光
欧小平
《计算机工程》
CAS
CSCD
北大核心
2016年第2期45-50,共6页
针对词频-逆文档频率模型应用于主题爬虫时存在的非结构化问题,设计基于分类关键词词频(CKTF)模型的主题爬虫。利用网页文档结构特征和主题词语的分布信息将网页映射为五维向量,根据维基百科中文语料库和搜狗全网新闻数据语料库选择关...
针对词频-逆文档频率模型应用于主题爬虫时存在的非结构化问题,设计基于分类关键词词频(CKTF)模型的主题爬虫。利用网页文档结构特征和主题词语的分布信息将网页映射为五维向量,根据维基百科中文语料库和搜狗全网新闻数据语料库选择关键词并计算其与地缘政治主题的相关度,使用支持向量机实现网页向量的学习和分类。实验结果表明,与传统主题爬虫相比,该主题爬虫能够挖掘地缘政治主题中的丰富内容,有效衡量网页与主题的相关度,具有较高的爬准率和稳定性。
展开更多
关键词
主题爬虫
分类关键词词频模型
词向量
支持向量机
相关度
在线阅读
下载PDF
职称材料
题名
基于分类关键词词频模型的地缘政治主题爬虫设计
被引量:
4
1
作者
魏勇
胡丹露
郝晨光
欧小平
机构
信息工程大学地理空间信息学院
四川省应急测绘与防灾减灾工程技术研究中心
中华测绘技术服务公司
出处
《计算机工程》
CAS
CSCD
北大核心
2016年第2期45-50,共6页
基金
四川省应急测绘与防灾减灾工程技术研究中心开放基金资助项目(K2015B014)
文摘
针对词频-逆文档频率模型应用于主题爬虫时存在的非结构化问题,设计基于分类关键词词频(CKTF)模型的主题爬虫。利用网页文档结构特征和主题词语的分布信息将网页映射为五维向量,根据维基百科中文语料库和搜狗全网新闻数据语料库选择关键词并计算其与地缘政治主题的相关度,使用支持向量机实现网页向量的学习和分类。实验结果表明,与传统主题爬虫相比,该主题爬虫能够挖掘地缘政治主题中的丰富内容,有效衡量网页与主题的相关度,具有较高的爬准率和稳定性。
关键词
主题爬虫
分类关键词词频模型
词向量
支持向量机
相关度
Keywords
topical crawler
classified keyword term frequency (cktf) model
word vector
Support Vector Machine(SVM)
relevancy
分类号
TP393 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于分类关键词词频模型的地缘政治主题爬虫设计
魏勇
胡丹露
郝晨光
欧小平
《计算机工程》
CAS
CSCD
北大核心
2016
4
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部