期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
面向蒙古文主题的网络爬虫采集策略模型
1
作者
马志强
张泽广
+1 位作者
闫瑞
杨双涛
《北京工业大学学报》
CAS
CSCD
北大核心
2015年第7期1012-1019,共8页
针对蒙古文主题爬虫主要面临的预测采集URL和发现隧道2个核心问题,提出一种基于主题团的站点聚类、排序和隧道发现的采集模型.通过站点的主题识别,将待爬行URL分为站点链接和非站点链接,使用文本相似度和超链图分析建立了预测URL优先级...
针对蒙古文主题爬虫主要面临的预测采集URL和发现隧道2个核心问题,提出一种基于主题团的站点聚类、排序和隧道发现的采集模型.通过站点的主题识别,将待爬行URL分为站点链接和非站点链接,使用文本相似度和超链图分析建立了预测URL优先级排序算法,基于站点粒度设计了站点自适应隧道发现算法,最后,构建了一个面向蒙古文主题的网络爬虫系统.实验结果表明:该算法在采准率、信息总量与采集速率上都得到了提高,明显优于基线算法.
展开更多
关键词
主题
爬虫
主题团模型
相关度计算
隧道
N-GRAM
模型
在线阅读
下载PDF
职称材料
题名
面向蒙古文主题的网络爬虫采集策略模型
1
作者
马志强
张泽广
闫瑞
杨双涛
机构
内蒙古工业大学信息工程学院
出处
《北京工业大学学报》
CAS
CSCD
北大核心
2015年第7期1012-1019,共8页
基金
国家自然科学基金资助项目(61363052)
内蒙古自治区自然科学基金资助项目(2014MS0608)
内蒙古自治区高等学校科学研究项目(NJZY12052)
文摘
针对蒙古文主题爬虫主要面临的预测采集URL和发现隧道2个核心问题,提出一种基于主题团的站点聚类、排序和隧道发现的采集模型.通过站点的主题识别,将待爬行URL分为站点链接和非站点链接,使用文本相似度和超链图分析建立了预测URL优先级排序算法,基于站点粒度设计了站点自适应隧道发现算法,最后,构建了一个面向蒙古文主题的网络爬虫系统.实验结果表明:该算法在采准率、信息总量与采集速率上都得到了提高,明显优于基线算法.
关键词
主题
爬虫
主题团模型
相关度计算
隧道
N-GRAM
模型
Keywords
focused crawler
topic group model
calculation of correlation
tunnel
N-Gram model
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
面向蒙古文主题的网络爬虫采集策略模型
马志强
张泽广
闫瑞
杨双涛
《北京工业大学学报》
CAS
CSCD
北大核心
2015
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部