期刊文献+

基于网页内容相似度改进算法的主题网络爬虫 被引量:6

Focused Crawler Based on Improved Algorithm of Web Content Similarity
在线阅读 下载PDF
导出
摘要 主题网络爬虫是垂直搜索引擎的重要组成部分,传统主题爬虫的网页内容相似度算法只考虑词频,忽略了关键词的位置信息。本文在分析基于网页内容相似度的主题爬虫的基础之上,提出利用网页HTML标签的特点改进相似度的计算方法。实验结果表明,改进算法抓取的平均准确率为64.99%,相比原始方法提高了15.37%。 Focused crawler is an important part of the vertical search engine.The Web content relevance algorithm of traditional focused crawler only considers term frequency,ignores the location information of key terms.After the analysis of the focused crawler based on the Web content relevance,this paper proposes an improved method of calculating relevance using the features of HTML tags.Experimental results show that the average accuracy of improved algorithm is 64.99% and increases 15.37% compared to the original method.
出处 《计算机与现代化》 2011年第9期1-4,共4页 Computer and Modernization
基金 福建省自然科学基金资助项目(2010J05133) 福建江夏学院青年项目(2010C046) 福州大学科技专项启动基金(2010-XQ-22)
关键词 搜索引擎 主题网络爬虫 相似度 向量空间模型 HTML标签 search engine focused crawler similarity vector space model HTML tags
作者简介 魏晶晶(1984-),女,福建平潭人,福建江夏学院电子信息科学系助教,硕士,研究方向:信息检索; 杨定达(1989-),男,福州大学数学与计算机科学学院硕士研究生,研究方向:信息检索; 廖祥文(1980-),男,福州大学数学与计算机科学学院讲师,硕士生导师,博士,研究方向:信息检索。
  • 相关文献

参考文献16

  • 1胡晓翠,陈建勋.对数码产品主题爬虫的设计与实现[J].计算机应用与软件,2010,27(2):203-205. 被引量:1
  • 2Madhavan J, Ko D, Kot L, et al. Google' s deep Web crawl [ C ]//Proceedings of the VLDB Endowment. 2008 : 1241-1252.
  • 3Olston C, Najork M. Web crawling[ J ]. Information Retriev- al,2010,4(3) : 175-246.
  • 4蒋宗礼,徐学可,李帅.一种基于超链接引导的主题搜索的主题敏感爬行方法[J].计算机应用,2008,28(4):942-944. 被引量:9
  • 5Page L, Brin S. The anatomy of a large-scale hypertextual Web search engine [ C ]//Proceedings of the 7th Interna- tional WWW Conference. Brisbane, Australia, 1998: 107-117.
  • 6Arasu A, Novak J, Tomkins, A, et al. PageRank computation and the structure of the Web:Experiments and algorithms [ C]//Proceedings of World Wide Web Conference Series, Computer Netwoks. Amsterdam ,2002 : 173-177.
  • 7Cho J, Gareia-Molina H, Page Lo Efficient crawling through URL ordering [ J ]. Computer Networks and ISDN Systems, 1998,30( 1 ) :161-172.
  • 8Bra P D, Houben G J, Komatzky Y, et al. Information re- trieval in distributed hypertexts [ C ]//Proceedings of the 4th RIAO Conference. 1994:481-491.
  • 9Hersovici M,Jacovi M,Maarek Y S,et al. The shark-search algo- ridam--An application :Tailored Web site mapping[ J ]. Computer Networks and ISDN Systems, 1998,30(1-7) :317-326.
  • 10Salton G. Automatic Text Processing: The Transformation, Analysis, and Tetrieval of Information by Computer [ M ]. Addison-Wesley, Reading, Pennsylvania, 1989.

二级参考文献46

共引文献43

同被引文献57

引证文献6

二级引证文献18

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部