摘要
介绍了搜索引擎的总体结构,分析了搜索引擎中爬行器的爬行策略和网页库的更新模式。介绍了其中一种较为合理的爬行和更新模式及其实现技术,实现了渐增式地爬行高质量网页和提高网页库新鲜度的目的。
This paper analyses the general architecture of search engine, especially the design and (implementation) technology of the crawling and update strategy, the crawler can download 'high quality' Web pages incrementally and maintain the 'freshness' of the Web repository.
出处
《华东理工大学学报(自然科学版)》
CAS
CSCD
北大核心
2004年第3期284-287,共4页
Journal of East China University of Science and Technology
基金
上海市青年科技启明星计划资助项目(99QD14038)
关键词
搜索引擎
爬行器
网页库
更新策略
search engine
crawler
Web repository
update strategy