期刊文献+

搜索引擎的渐增式爬行和备份式更新模式 被引量:6

Incremental Crawling and Shadowing Update Strategy in Search Engines
在线阅读 下载PDF
导出
摘要 介绍了搜索引擎的总体结构,分析了搜索引擎中爬行器的爬行策略和网页库的更新模式。介绍了其中一种较为合理的爬行和更新模式及其实现技术,实现了渐增式地爬行高质量网页和提高网页库新鲜度的目的。 This paper analyses the general architecture of search engine, especially the design and (implementation) technology of the crawling and update strategy, the crawler can download 'high quality' Web pages incrementally and maintain the 'freshness' of the Web repository.
出处 《华东理工大学学报(自然科学版)》 CAS CSCD 北大核心 2004年第3期284-287,共4页 Journal of East China University of Science and Technology
基金 上海市青年科技启明星计划资助项目(99QD14038)
关键词 搜索引擎 爬行器 网页库 更新策略 search engine crawler Web repository update strategy
  • 相关文献

参考文献7

  • 1[1]Cho J, Garcia-Molina H. Synchronization a database to improve freshness[A]. Proceedings of 2000 ACM International Conference on Management of Data[C].New York:ACM Press,2000.117-128.
  • 2[2]Cho J, Garcia-Molina H. The evolution of the Web and implications for an incremental crawler[A]. Proceedings of the 26th International Conference on Very Large Date Bases[C].San Fransisco:Morgan Kaufmann Publishers Inc,2000.200-209.
  • 3[3]Cho J, Garcia-Molina H. Estimating frequency of change[J].ACM Trans Internet Techn,2003,3(3):256-290.
  • 4[4]Brewington B, Cybenko G. Keeping up with the changing web[J]. IEEE Computer,2000,33(5):52-58.
  • 5[5]Cho J, Garcia-Molina H, Lawrence P. Efficient crawing through URL ordering[J]. Computer Networks,1998,30(1-7):161-172.
  • 6[6]Hirai J. WebBase: A repository of Web pages[J]. Computer Networks,2000,33(1-6):277-293.
  • 7[7]Cho J, Ntoulas A. Effective change detection using sampling[A]. Proceedings of the 28th International Conference on Very Large Data Bases[C]. San Fransisco: Morgan Kaufmann Publishers Inc,2002.514-525.

同被引文献45

引证文献6

二级引证文献15

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部