摘要
根据国内外在信息采集领域的发展以及并行采集技术的研究,提出了一个基于多线程并行的W eb信息采集结构模型,该模型以线程并行的方式对W eb页面同时采集,实现了全面、高效并且灵活的信息搜集。
Based on the long-time accumulation in the field of Web crawling, and combining the current developing technologies on parallel Web crawling, this article put forward a structure design model of the parallel incremental Web crawler. In order to download Web pages paralleUy, we adopted means of multiple thread that can effectively improve information gathering performance.
出处
《计算机应用》
CSCD
北大核心
2007年第1期225-227,共3页
journal of Computer Applications
基金
广东省自然科学基金资助项目(5006102)
关键词
并行Web
信息采集
搜索引擎
parallel Web
information gathering
search engine
作者简介
杨天奇(1961-),男,江西南昌人,副教授.博士,主要研究方向:人工智能、数据挖掘、入侵检测(y_tq@163.com);
周晔(1980-),男,湖南长沙人,硕士研究生,主要研究方向:入侵检测.