摘要
针对基于模板生成Web页的基本特点,结合Ontology知识,探索Deep Web垂直搜索中,复杂Web页面的Wrapper自动化生成的解决方案.对实际复杂Web页面抽取的实验结果表明,该方法达到了较高的抽取准确率.
According to characteristic of the template-based Web-pages, combing the ontology, this paper proposes a method to solve the problem of automatic generation of wrapper for complex Web pages in the deep Web vertical-search condition. Experimental evaluation on a number of real complex Web page collections indicates that our method can gain a high extraction precision.
出处
《微电子学与计算机》
CSCD
北大核心
2010年第4期62-65,共4页
Microelectronics & Computer
基金
国家自然科学基金项目(60673092)
江苏省重大科技支撑与自主创新项目(BE2008044)
江苏省"六大人才高峰"项目(06-E-037)
关键词
本体
数据抽取
包装器
ontology
data extraction
wrapper
作者简介
陈洪平 男,(1983-),硕士研究生.研究方向为搜索引擎、Web数据挖掘.
方巍 男,(1975-),博士研究生.研究方向为智能信息处理、Web数据挖掘、语义web、DeepWeb.
李林 男,(1982-),硕士研究生.研究方向为网络爬虫、Web数据挖掘等.
崔志明 男,(1961-),教授,博士生导师.研究方向为智能化信息处理、计算机网络应用.