期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于MD5去重树的网络爬虫的设计与优化 被引量:10
1
作者 严磊 丁宾 +2 位作者 姚志敏 马勇男 郑涛 《计算机应用与软件》 CSCD 2015年第2期325-329,333,共6页
随着信息化社会的不断发展,互联网上的数据越来越多,随之也产生了各种各样的搜索引擎,网络爬虫正是为搜索引擎提供数据基础的。由于大多数普通的网络爬虫在数据量巨大时都会因为DNS解析以及url去重而消耗大量的时间,为了更好地改进... 随着信息化社会的不断发展,互联网上的数据越来越多,随之也产生了各种各样的搜索引擎,网络爬虫正是为搜索引擎提供数据基础的。由于大多数普通的网络爬虫在数据量巨大时都会因为DNS解析以及url去重而消耗大量的时间,为了更好地改进爬虫的效率,让爬虫在大数据处理时依然拥有良好的性能,使用哈希链表缓存DNS并将DNS解析的效率相对于普通不做DNS优化的爬虫提高了2.5~3倍。再将MD5加密算法以及树相结合设计出一种基于MD5的ud去重树,理论上使得url去重的空间复杂度相对于普通哈希表缩小60倍,而让其查重的时间复杂度接近于O(1)。最终通过实验证明了该设计的数据结构较为良好。 展开更多
关键词 搜索引擎 网络爬虫 哈希链表 去重树
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部