期刊文献+

复杂Web页的Wrapper自动化生成技术研究

The Study of Automatic Generation of Wrapper for Data Extraction from Complex Web
在线阅读 下载PDF
导出
摘要 针对基于模板生成Web页的基本特点,结合Ontology知识,探索Deep Web垂直搜索中,复杂Web页面的Wrapper自动化生成的解决方案.对实际复杂Web页面抽取的实验结果表明,该方法达到了较高的抽取准确率. According to characteristic of the template-based Web-pages, combing the ontology, this paper proposes a method to solve the problem of automatic generation of wrapper for complex Web pages in the deep Web vertical-search condition. Experimental evaluation on a number of real complex Web page collections indicates that our method can gain a high extraction precision.
出处 《微电子学与计算机》 CSCD 北大核心 2010年第4期62-65,共4页 Microelectronics & Computer
基金 国家自然科学基金项目(60673092) 江苏省重大科技支撑与自主创新项目(BE2008044) 江苏省"六大人才高峰"项目(06-E-037)
关键词 本体 数据抽取 包装器 ontology data extraction wrapper
作者简介 陈洪平 男,(1983-),硕士研究生.研究方向为搜索引擎、Web数据挖掘. 方巍 男,(1975-),博士研究生.研究方向为智能信息处理、Web数据挖掘、语义web、DeepWeb. 李林 男,(1982-),硕士研究生.研究方向为网络爬虫、Web数据挖掘等. 崔志明 男,(1961-),教授,博士生导师.研究方向为智能化信息处理、计算机网络应用.
  • 相关文献

参考文献8

  • 1Crescenzi V, Mecca G, Merialdo P. Roadrunner: towards automatic data extraction from large Web sites[ C]//Proceedings of the 27th International Conference on Very Large Data Bases. San Francisco: Morgan Kaufmann, 2001 : 109 - 118.
  • 2Yang Jaeyoung, Tae- Hyung Kim, Joongmin Choi. An interface agent for wrapper - based information extraction [JJ. Lecture Notes in Computer Science, 2005 (3371):291 - 302.
  • 3Meng X F, Hu D D, Li C. Schema guided wrapper maintenance for Web - data extraction [ C ]// Proceedings of ACM WIDM'2003. New York: ACM Press, 2003: 1- 8.
  • 4Arasu A, Garcia- Molina H. Extracting structured data from Web pages[C]//Proceedings of the 2003 ACM SIGMOD international conference on Management of data. New York: ACM Press, 2003 : 337 - 348.
  • 5胡东东,孟小峰.一种基于树结构的Web数据自动抽取方法[J].计算机研究与发展,2004,41(10):1607-1613. 被引量:21
  • 6Zhu Jun, Nie Zaiqing, Wen Jirong, et al. Simultaneous record detection and attribute labeling in web data extraction[ C] // Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining. New York: ACM Press, 2006:494- 503.
  • 7Wang J, Lochovsky F. Data - rich section extraction from HTML pages [ C]//Proceedings of the 3rd International Conference on Web Information Systems Engineering. Washinglon: IEEE Computer Society, 2002: 313 - 322.
  • 8陈晓锋,张凌,董守斌.基于XPath比较的Web数据抽取方法[J].郑州大学学报(理学版),2007,39(2):161-166. 被引量:4

二级参考文献14

  • 1王煜,王光明.比较购物现状之研究[J].计算机时代,2005(8):1-2. 被引量:5
  • 2张慧颖,曲著伟.基于子树匹配的交互式Web数据抽取方法[J].计算机工程,2006,32(9):78-80. 被引量:8
  • 3Meng X F, Lu H J, Wang H Y, et al. SG-WRAP: A schemaguided wrapper generator demonstration. In: Proc of ICDE'2002. Los Alamitos, CA: IEEE Computer Society Press, 2002.331 ~332
  • 4Meng X F, Hu D D, Li C. Schema guided wrapper maintenance for Web-data extraction. In: Proc of ACM WIDM' 2003. New York: ACM Press, 2003. 1~8
  • 5Meng X F, Wang H Y, Hu D D, et al. Sg-wram: Schema guided wrapper maintenance. In: Proc of ICDE' 2003. Los Alamitos,CA: IEEE Computer Society Press, 2003. 750~752
  • 6Meng X F, Lu H J, Wang H Y, et al. Schema-guided data extraction from the Web. Journal of Computer Science and Technology, 2002, 17(4): 377~388
  • 7V Crescenzi, G Mecca, P Merialdo. ROADRUNNER: Towards automatic data extraction from large Web sites. In: Proc of VLDB'2001. San Francisco, CA: Morgan Kaufmann, 2001. 109~118
  • 8A Arasu, H Garcia-Molina. Extracting structured data from Web pages. In: Proc of ACM SIGMOD'03. New York: ACM Press,2003. 337~348
  • 9St(e)phane Grumbach, Giansalvatore Mecca. In search of the lost schema. In: Proc of ICDT'1999. Berlin: Springer, 1999. 314~331
  • 10Baumgartner R,Flesca S,Gottlob G.Visual Web information extraction with Lixto[C]∥Processing of the Very Large Data Bases (VLDB),Roma,Italy,2001:119-128.

共引文献23

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部