WWW论坛中的动态网页采集被引量：11

Crawling Dynamic Web Pages in WWW Forums

在线阅读下载PDF

导出

摘要网络论坛已经成为互联网信息发布的主要形式,对论坛信息的检索和挖掘都涉及到论坛信息的获取,然而传统的针对静态网页的广度优先采集工具,不能有效地获取论坛信息。该文利用论坛的结构特点,提出了一种“版面-主题关联判断”(BTCJ)算法,采用一种基于版面扩展的采集策略。实验证明,该方法在论坛采集准确率和覆盖率方面显著优于广度优先策略;具有良好的泛化能力,应用在实践中已覆盖各种类型的论坛12000余个。 Web Forums have been one of dominating ways for information release and exchange in lnternet. Crawling is the groundwork of searching and mining information from Web Forums. However, traditional crawling component usually using ＂Broad-first＂ strategy can not fetch information from Web Forums effectively. Exploring inner structure-features of forums, this paper presents a crawling strategy, which is based on ＂board-topic correlation judgments＂ algorithm. Compared with ＂board-first＂ strategy, this solution performs remarkably better both in precisions and recall. In practice, the algorithm is performed over 12 000 different Web forums and achieves a good result.

作者李魁程学旗郭岩张凯

机构地区中国科学院计算技术研究所

出处《计算机工程》 CAS CSCD 北大核心 2007年第6期80-82,共3页 Computer Engineering

基金国家"973"计划基金资助项目"大规模文本内容计算"(2004CB318109)

关键词互联网论坛信息采集动态网页 WWW forums Information crawling Dynamic Web page

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

作者简介李魁（1982-），男，硕士生，主研方向：信息检索，自然语言处理；E-mail：ibucan@126．com 程学旗，研究员；郭岩，助理研究员张凯，助理研究员

引文网络
相关文献

参考文献5

1Cho J,Garcia-Molina H,Page L.Efficient Crawling Through URL Ordering[C]//Proceedings of the 7^th International World Wide Web Conference.1998:161-172.
2Najork M,Wiener J L.Breadth-first Crawling Yields High-quality Pages[C]//Proceedings of the 10^th International World Wide Web Conference.2001:114-118.
3Li Jun,Furuse K,Yamaguchi K.Focused Crawl -ing by Exploiting Anchor Text Using DecisionTree[C]//Proceedings of the 14^th International World Wide Web Conference.2005:1190-1191.
4Castillo C.Effective Web Crawling[D].University of Chile,2004.
5Brin S,Page L.The Anatomy of a Large-scale Hypertextual Web Search Engine[J].Computer Networks and ISDN Systems,1998,30(1-7):107-117.

同被引文献57

1黄玲,陈龙.基于网页分块的正文信息提取方法[J].计算机应用,2008,28(S2):326-328. 被引量：13
2王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
3杜义华,焦文彬.互联网中XML网页的链接解析与信息采集[J].计算机系统应用,2005,14(7):24-26. 被引量：2
4吕铁强,于满泉,孟庆发,周立德.基于网页分块的个性化信息采集的研究与设计[J].微电子学与计算机,2005,22(10):120-123. 被引量：10
5曾义聪,杨贯中.基于概念树的主题搜索机器人系统研究[J].科学技术与工程,2006,6(16):2458-2463. 被引量：3
6游安弼.用C#二次开发UG NX[J].现代机械,2007(2):79-82. 被引量：11
7李超锋,卢炎生.基于URL结构和访问时间的Web页面访问相似性度量[J].计算机科学,2007,34(4):207-209. 被引量：4
8赖勇浩,谢赞福.防干扰的不良网页过滤算法研究[J].计算机工程,2007,33(11):98-99. 被引量：3
9Li Jun, Furuse K, Yamaguchi K. Focused Crawling by Exploiting Anchor Text Using Decision Tree[C]//Proc. of the 14th International World Wide Web Conference. Chiba, Japan: [s. n.], 2005: 1190-1191.
10Cheng Jing, Li Qing, Wang Liping, et al. Automatically Generating An E-textbook on the Web[M]. Berlin, Germany: Springer-Verlag Heidelberg, 2004: 35-42.

引证文献11

1沙科君.基于Web的天气预报系统设计与实现[J].宁波广播电视大学学报,2007,5(4):115-117. 被引量：2
2李国栋,刘忠强,柳长安.基于目录树的网络科技资源采集算法[J].计算机工程,2009,35(1):277-279. 被引量：3
3方宏,吕太之.求职网站职位列表页链接信息的自动提取[J].现代图书情报技术,2009(7):93-96. 被引量：3
4蔡欣宝,郭若飞,赵朋朋,崔志明.Web论坛数据源增量爬虫的研究[J].计算机工程,2010,36(9):285-287. 被引量：5
5胡凌云,胡桂兰,徐勇,李龙澍.基于Web的新闻文本分类技术的研究[J].安徽大学学报（自然科学版）,2010,34(6):66-70. 被引量：7
6李恒训,李南波,邱泳钦,徐燕,刘金刚.基于结构驱动的网络论坛采集路径研究[J].计算机应用研究,2011,28(9):3284-3287. 被引量：1
7陈翰,韩永峰,李弼程.基于突发事件热度的站点地图构建算法[J].计算机应用研究,2012,29(8):2943-2947. 被引量：6
8孙善通,王嘉梅,李炳泽,弓盼,胡刚.彝文网络信息获取平台的研究[J].电子技术与软件工程,2015(13):44-46. 被引量：1
9程杜新,傅魁.基于Nutch的Web论坛分块采集系统[J].图书馆学研究,2017(7):56-60. 被引量：1
10惠莹.基于爬虫技术的校园网络舆情监测元数据管理研究[J].电脑编程技巧与维护,2018(1):116-118. 被引量：1

二级引证文献31

1陈诗琴,李文江.基于.NET的农产品市场行情信息采集——以重庆农产品市场行情查询网为例[J].现代图书情报技术,2010(6):88-92.
2陈建国.基于Web结构的网站新闻采集系统的设计与实现[J].井冈山大学学报（自然科学版）,2012,33(2):54-57. 被引量：3
3唐朝伟,李俊,苗光胜,杜欣慧.基于DOM树的视频元数据抽取系统[J].计算机工程,2012,38(8):268-270. 被引量：1
4陈翰,韩永峰,李弼程.基于突发事件热度的站点地图构建算法[J].计算机应用研究,2012,29(8):2943-2947. 被引量：6
5杨眉.网页更新预测算法研究现状[J].软件导刊,2013,20(4):57-59. 被引量：2
6薛春香,张玉芳.面向新闻领域的中文文本分类研究综述[J].图书情报工作,2013,57(14):134-139. 被引量：25
7刘洪民.气象网站实现分时天气预报的自动更新[J].现代计算机,2014,20(6):69-71.
8李湘东,巴志超,黄莉.基于加权隐含狄利克雷分配模型的新闻话题挖掘方法[J].计算机应用,2014,34(5):1354-1359. 被引量：14
9宋宇,李文林,张云,曾莉.中药方剂文献的数据挖掘[J].中华医学图书情报杂志,2014,23(8):59-62. 被引量：9
10胡改丽,陈福集.网络舆情热点话题传播结构研究[J].发展研究,2014,31(8):92-96.

1李恒训,张华平,刘金刚.WWW论坛采集关键技术研究[J].微计算机信息,2010,26(24):106-107. 被引量：1
2李恒训,李南波,邱泳钦,徐燕,刘金刚.基于结构驱动的网络论坛采集路径研究[J].计算机应用研究,2011,28(9):3284-3287. 被引量：1
3李文锋,段红亮,李玲林.移动环境下索引广播技术的改进[J].计算技术与自动化,2008,27(4):128-131. 被引量：1
4杨沛,郑启伦,彭宏,李颖基.基于主题关联联想的Web知识发现[J].计算机应用研究,2004,21(4):12-13.
5王强.基于事务标识列表的关联规则挖掘算法[J].现代图书情报技术,2008(8):63-69. 被引量：4
6舒恒,顾耀林.基于模型上相邻三角面关系的纹理合成[J].计算机工程与应用,2007,43(34):85-87. 被引量：1
7谈晓军,冯欣.一种基于广度优先策略的R树连接算法[J].华中科技大学学报（自然科学版）,2005,33(4):79-82. 被引量：1
8刘烨,洪佳,季石磊,李万勇.用层次分析发现多维数据模型的主题域[J].计算机应用,2006,26(4):867-869.
9顾耀林,舒恒.基于面法向的快速纹理合成[J].计算机工程与应用,2008,44(8):85-88. 被引量：1
10秦晓慧,乐小虬.基于LDA主题关联过滤的领域主题演化研究[J].现代图书情报技术,2015(3):18-25. 被引量：27

计算机工程

2007年第6期

浏览历史

内容加载中请稍等...

WWW论坛中的动态网页采集被引量：11

参考文献5

同被引文献57

引证文献11

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

WWW论坛中的动态网页采集 被引量：11

参考文献5

同被引文献57

引证文献11

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

WWW论坛中的动态网页采集被引量：11