期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
Web信息抽取技术综述 被引量:22
1
作者 陈钊 张冬梅 《计算机应用研究》 CSCD 北大核心 2010年第12期4401-4405,共5页
快速高效地获取网页主题信息的需求使得Web信息抽取技术成为信息技术领域的研究热点。现有的Web信息抽取技术大致可以归纳为基于统计理论的、基于视觉特征的、基于DOM树结构的和基于模板的几类。由于网页文本本身具有树结构并且具有一... 快速高效地获取网页主题信息的需求使得Web信息抽取技术成为信息技术领域的研究热点。现有的Web信息抽取技术大致可以归纳为基于统计理论的、基于视觉特征的、基于DOM树结构的和基于模板的几类。由于网页文本本身具有树结构并且具有一定的相似性,基于DOM树结构和基于模板的抽取技术发展很快而且已经得到了广泛的应用。分别论述了上述几类技术在近几年来的研究进展,从自动化程度、适用范围和复杂性三个角度分析对比了几类技术的优缺点。 展开更多
关键词 WEB信息抽取 网页噪声 URL聚类 dse算法 RoadRunner系统 MDR 视觉特征 模板
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部