期刊文献+

主题爬虫技术研究综述 被引量:49

Survey on research of topic crawling technique
在线阅读 下载PDF
导出
摘要 随着移动互联网的普及以及网络信息指数的增长,如何有效地提取和利用这些信息面临巨大挑战。介绍了主题爬虫的工作原理、分类;回顾了近年来国内外关于主题爬虫的研究状况,分析了各种主题相似度的方法以及搜索策略,得出相比于普通的爬虫系统,基于网页内容和基于链接分析的爬虫系统的查准率、查全率都大幅提升;最后分析比较了主题网络爬虫两种动态搜索策略并指出了未来研究方向。 With the popularity of the mobile Internet and the growth of network information index,how to effectively extract and utilize these information faces enormous challenges.Firstly,this paper introduced the working principle and classification of the topic crawler.Then it reviewed the research status of the topic crawler at home and abroad in recent years,analyzed the methods of various topic similarity and the search strategies.It shows that compared with the common crawler system,the precision and recall rate of the crawler system based on Web content and based on link analysis were greatly improved.Finally,this paper analyzed and compared the two dynamic search strategies and pointed out future research directions of the topic Web crawler.
作者 潘晓英 陈柳 余慧敏 赵逸喆 肖康泞 Pan Xiaoying;Chen Liu;Yu Huimin;Zhao Yizhe;Xiao Kangning(School of Computer Science&Technology,Xi’an University of Posts&Telecommunications,Xi’an 710121,China;Shaanxi Key Laboratory of Network Data Analysis&Intelligent Processing,Xi’an University of Posts&Telecommunications,Xi’an 710121,China)
出处 《计算机应用研究》 CSCD 北大核心 2020年第4期961-965,972,共6页 Application Research of Computers
基金 国家自然科学基金资助项目(61373116)。
关键词 网络爬虫 主题爬虫 相似度 网页内容 链接分析 Web crawler topic crawler similarity Web page content link analysis
作者简介 潘晓英(1981-),女,浙江丽水人,教授,博士,主要研究方向为人工智能、数据挖掘;通信作者:陈柳(1993-),女,陕西西安人,硕士,主要研究方向为人工智能、主题爬虫(chenliu@vdail.com);余慧敏(1995-),女,陕西商洛人,硕士研究生,主要研究方向为人工智能、数据挖掘;赵逸喆(1994-),女,陕西榆林人,硕士研究生,主要研究方向为人工智能、数据挖掘;肖康泞(1997-),男,陕西西安人,本科,主要研究方向为人工智能、数据挖掘.
  • 相关文献

参考文献13

二级参考文献125

共引文献69

同被引文献425

引证文献49

二级引证文献267

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部