-
题名Deep Web接口的自动识别技术研究
- 1
-
-
作者
杨永红
高磊
余航
徐欣辰
-
机构
中国石化胜利油田分公司勘探开发研究院
上海大学计算机工程与科学学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2017年第7期109-114,共6页
-
文摘
获取Deep Web中信息的主要途径是通过在其提供的查询接口上提交查询来实现的,目前大部分的研究以表单内的<form></form>标签获得表单内容结构,判断是不是一个Deep Web查询接口。提出了接口块的概念,设计了一种基于页面信息和视觉信息的接口块定位方法,最后将判定接口块是不是Deep Web接口看作是一个模式识别的分类问题,通过抽取适当的表单结构特征,采用C4.5决策树和SVM相结合的分类算法来进行接口块的判定,得到页面中含有的Deep Web查询接口。采用UIUC的TEL-8数据集进行实验,结果表明,该方法的准确率达到了97.30%,具有良好的可行性和实用性。
-
关键词
DeepWeb接口
文档对象化模型树
接口块
多类分类
-
Keywords
Deep Web interface
Document Object Model(DOM)tree
interface block
multi-class classification
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-