-
题名基于标签路径的Web结构化数据自动抽取
被引量:3
- 1
-
-
作者
李贵
陈成
李征宇
韩子扬
孙平
孙焕良
-
机构
沈阳建筑大学信息与控制工程系
-
出处
《计算机科学》
CSCD
北大核心
2013年第06A期141-144,165,共5页
-
基金
国家自然科学基金(61070024)资助
-
文摘
提出了一种基于标签路径的Web结构化数据自动抽取方法。该方法通过对网页DOM树的解析获取完整标签路径集合,并依据路径相似度测量方法来聚类标签路径,实现目标数据区域的定位,然后通过标签节点坐标位置的特性来分离各个数据项,过滤冗余数据,最终完成数据抽取。实验结果表明,与MDR方法相比,该方法在处理拥有结构化数据的网页时,有更高的查全率和查准率。
-
关键词
标签路径
结构化数据抽取
聚类
-
Keywords
Tag path, Extracting structured data,Clustering
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-