-
题名增量更新并行W eb爬虫系统
被引量:8
- 1
-
-
作者
徐文杰
陈庆奎
-
机构
上海理工大学计算机与电气工程学院
-
出处
《计算机应用》
CSCD
北大核心
2009年第4期1117-1119,1127,共4页
-
基金
国家自然科学基金资助项目(60573108)
上海教委发展基金资助项目(06QZ00207ZZ92)
+1 种基金
上海教委科研创新重点项目(08ZZ76)
上海市重点学科建设项目(s30501)
-
文摘
介绍了并行Web爬虫系统的总体结构,引入了增量更新爬虫策略,在提高Web海量数据更新效率的同时,考虑到机群中各个爬虫的能力不一,为了使机群中爬虫的能力得到充分应用,又提出了向量度量技术,解决了抓取任务和爬虫能力匹配的问题。对抓取任务向量、爬虫向量进行了定义,并在此基础上给出了相关的并行算法。实践表明,系统具有良好的分配适应性,并可以在此基础上渐增式地提高网页库新鲜度。
-
关键词
Web数据抓取
并行爬虫
增量更新策略
余弦向量法
-
Keywords
Web data crawling
parallel crawler
increment update strategy
cosine vector
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于采样的在线大图数据收集和更新
- 2
-
-
作者
尹子都
岳昆
张彬彬
李劲
-
机构
云南大学信息学院
云南大学软件学院
-
出处
《软件学报》
EI
CSCD
北大核心
2020年第11期3540-3558,共19页
-
基金
国家自然科学基金(U1802271,62002311)
云南省基础研究计划杰出青年项目(2019FJ011)
+1 种基金
云南省青年拔尖人才培养支持计划(C6193032)
云南大学东陆学者培育计划。
-
文摘
互联网中,以网页、社交媒体和知识库等为载体呈现的大量非结构化数据可表示为在线大图.在线大图数据的获取包括数据收集和更新,是大数据分析与知识工程的重要基础,但面临着数据量大、分布广、异构和变化快速等挑战.基于采样技术,提出并行、自适应的在线大图数据收集和更新方法.首先,将分支限界方法与半蒙特卡罗采样技术相结合,提出能够自适应地收集在线大图数据的HD-QMC算法;然后,为了使收集的数据能反映实际中在线大图的动态变化,进一步基于信息熵及泊松过程,提出高效更新在线大图数据的EPP算法.从理论上分析了该算法的有效性,并将获取的各类在线大图数据统一表示为RDF三元组的形式,为在线大图数据分析及相关研究提供方便易用的数据基础.基于Spark实现了在线大图数据的收集和更新算法,人工生成数据和真实数据上的实验结果展示了该方法的有效性和高效性.
-
关键词
在线大图
数据收集
数据更新
并行爬虫
SPARK
-
Keywords
online big graph
data collection
data updating
parallel crawler
Spark
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-