-
题名基于DOM树与领域本体的Web抽取方法
被引量:6
- 1
-
-
作者
郭建兵
崔志明
陈明
赵朋朋
-
机构
苏州大学智能信息处理及应用研究所
苏州普达新信息技术有限公司
-
出处
《计算机工程》
CAS
CSCD
2012年第5期56-58,共3页
-
基金
国家自然科学基金资助项目(60970015
61003054)
+2 种基金
江苏省企业博士创新基金资助项目(BK2009563)
江苏省高校自然科学研究基金资助项目(10KJB520018)
苏州市科技型企业技术创新专项基金资助项目(SG201043)
-
文摘
为解决异构DeepWeb结果页面中数据区域及数据记录的自动抽取问题,提出一种基于DOM树与领域本体的Web抽取方法。利用数据内容特征以及领域本体库标记DOM树的节点,按照结果页面展示规律定位数据区域,根据改进的简单树匹配算法,定位数据区域及数据记录。实验结果表明,该方法定位数据区域及数据记录的F-measure值比传统的抽取方法高2.93%~6.67%。
-
关键词
自动抽取
DOM树
领域本体
数据区域定位
简单树匹配
-
Keywords
automatic extraction
DOM tree
domain ontology
data area positioning
simple tree matching
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名一种基于范围型属性的Deep Web数据提取方法
被引量:2
- 2
-
-
作者
郭建兵
崔志明
陈明
赵朋朋
-
机构
苏州普达新信息技术有限公司
苏州大学智能信息处理及应用研究所
-
出处
《计算机应用与软件》
CSCD
北大核心
2013年第2期54-57,共4页
-
基金
国家自然科学基金项目(60970015
61003054)
+1 种基金
江苏省高校自然科学研究项目(10KJB520018)
苏州市科技型企业技术创新资金专项(SG201043)
-
文摘
针对在Deep Web数据库查询结果存在上限k的情况下,对于如何提取数据记录的问题,提出一种基于范围型属性的数据提取方法。利用范围型属性的值域特征,将其值域按照目标数据库的分布样本划分为多个子区间。实验结果表明,按照该方法划分的子区间,使得查询收益,查询饱和度和已提取数据的覆盖程度等指标均达到98.50%以上。
-
关键词
数据提取
DEEP
WEB
区间划
Top-k元组
范围型属性
-
Keywords
Data extraction Deep Web Interval division Top-k tuple Range property
-
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
-
-
题名一种基于语义词典的本体对齐框架
被引量:1
- 3
-
-
作者
杨舟
岳亮
崔志明
-
机构
苏州普达新信息技术有限公司
苏州大学智能信息处理及应用研究所
江苏省现代企业信息化应用支撑软件工程技术研发中心
-
出处
《计算机应用与软件》
CSCD
北大核心
2012年第8期49-51,130,共4页
-
基金
国家自然科学基金项目(60970015)
苏州市科技型企业创新资金专项(SG201043)
-
文摘
提出一种基于语义词典的本体对齐框架。首先抽取出代表本体元素的字符串,这些字符串包括本体中的概念、实例、关系等,并利用现有的词典和语义资源将字符串变为词的集合;然后将本体对齐转换为单词集合间的映射,通过多相似度的匹配算法来进行相似度计算,从而实现本体对齐。实验结果表明,所提出的方法是有效的且较之以前的对齐方法有一定的提高。
-
关键词
本体
本体对齐
语义WEB
-
Keywords
Ontology Ontology alignment Semantic Web
-
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
-