期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
Deep Web数据集成研究综述 被引量:137
1
作者 刘伟 孟小峰 孟卫一 《计算机学报》 EI CSCD 北大核心 2007年第9期1475-1489,共15页
随着World Wide Web(WWW)的飞速发展,Deep Web中蕴含了海量的可供访问的信息,并且还在迅速地增长.这些信息要通过查询接口在线访问其后端的Web数据库.尽管丰富的信息蕴藏在Deep Web中,由于Deep Web数据的异构性和动态性,有效地把这些信... 随着World Wide Web(WWW)的飞速发展,Deep Web中蕴含了海量的可供访问的信息,并且还在迅速地增长.这些信息要通过查询接口在线访问其后端的Web数据库.尽管丰富的信息蕴藏在Deep Web中,由于Deep Web数据的异构性和动态性,有效地把这些信息加以利用是一件十分挑战性的工作.Deep Web数据集成至今仍然是一个新兴的研究领域,其中包含有若干需要解决的问题.总体来看,在该领域已经开展了大量的研究工作,但各个方面发展并不均衡.文中提出了一个Deep Web数据集成的系统架构,依据这个系统架构对Deep Web数据集成领域中若干关键研究问题的现状进行了回顾总结,并对未来的研究发展方向作了较为深入的探讨分析. 展开更多
关键词 World Wide web DEEP web web数据 查询接口 DEEP web数据集成
在线阅读 下载PDF
RDF(资源描述框架)——Web数据集成的元数据解决方案 被引量:21
2
作者 罗威 《情报学报》 CSSCI 北大核心 2003年第2期178-184,共7页
元数据的使用可以大大提高信息系统检索和管理的效率,W3C提出的RDF则解决了在Web数据集成中使用元数据的问题.本文逐一介绍RDF的基本含义,RDF在Web上实现元数据描述及交换的机制,RDF的特点及RDF在若干Web新技术中的应用.最后以RDF在DLI... 元数据的使用可以大大提高信息系统检索和管理的效率,W3C提出的RDF则解决了在Web数据集成中使用元数据的问题.本文逐一介绍RDF的基本含义,RDF在Web上实现元数据描述及交换的机制,RDF的特点及RDF在若干Web新技术中的应用.最后以RDF在DLI2的子项目InterLib中的应用为例,详细说明RDF的应用方案. 展开更多
关键词 RDF 资源描述框架 web数据集成 数据 web资源描述
在线阅读 下载PDF
基于结果模式的Deep Web数据集成
3
作者 马安香 张斌 +2 位作者 张引 高克宁 孙达明 《小型微型计算机系统》 CSCD 北大核心 2010年第5期813-818,共6页
Deep Web中蕴含了海量可供访问的信息,如何构建一个具有较好适用性和高效数据处理能力的Deep Web数据集成系统是有效利用Deep Web信息的关键.提出一种基于结果模式的DeepWeb数据集成机制,通过结果模式可以实现高效的数据抽取,并且在结... Deep Web中蕴含了海量可供访问的信息,如何构建一个具有较好适用性和高效数据处理能力的Deep Web数据集成系统是有效利用Deep Web信息的关键.提出一种基于结果模式的DeepWeb数据集成机制,通过结果模式可以实现高效的数据抽取,并且在结果模式的基础上可以根据用户查询请求动态生成结果输出模式,为高效的查询结果处理奠定了良好基础;同时,针对Deep Web数据源特点,给出数据源间冲突的分类及解决策略,为解决数据源间的异构问题奠定了良好基础. 展开更多
关键词 DEEP web数据集成 结果模式 结果输出模式 冲突
在线阅读 下载PDF
多源Web对象与关系数据的集成 被引量:1
4
作者 黄健斌 姬红兵 孙鹤立 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2007年第1期126-130,153,共6页
利用序列数据语义标注学习方法来解决异构数据源的模式匹配问题,将从多个网站抽取的异构Web对象集成到关系数据库中.在线性链条件随机场的基础上提出了一种可叠加多阶链的组合条件随机场模型.该模型可以在由手工标注数据和关系数据库记... 利用序列数据语义标注学习方法来解决异构数据源的模式匹配问题,将从多个网站抽取的异构Web对象集成到关系数据库中.在线性链条件随机场的基础上提出了一种可叠加多阶链的组合条件随机场模型.该模型可以在由手工标注数据和关系数据库记录组成的联合样本集上进行训练,因此减少了对繁琐手工标注样本的依赖;此外,通过在线性链条件随机场模型上叠加高阶链,使得该模型能够有效地处理状态变量间的长距离依赖.在多个领域的真实数据集上的实验和分析结果表明,所提出的方法能显著提高异构Web数据的字段标注性能. 展开更多
关键词 web数据集成 模式匹配 组合条件随机场
在线阅读 下载PDF
基于约束条件随机场的Web数据语义标注 被引量:9
5
作者 董永权 李庆忠 +1 位作者 丁艳辉 彭朝晖 《计算机研究与发展》 EI CSCD 北大核心 2012年第2期361-371,共11页
Web数据语义标注是Web信息抽取中的关键步骤.条件随机场是利用序列特征处理序列标注问题的经典方法.然而现有条件随机场模型无法综合利用已有的Web数据库信息和Web数据元素之间的逻辑关系,导致Web数据语义标注准确率不高.因此,提出一种... Web数据语义标注是Web信息抽取中的关键步骤.条件随机场是利用序列特征处理序列标注问题的经典方法.然而现有条件随机场模型无法综合利用已有的Web数据库信息和Web数据元素之间的逻辑关系,导致Web数据语义标注准确率不高.因此,提出一种约束条件随机场模型(CCRF).该模型通过引入可信约束和逻辑约束,有效利用了已有的Web数据库信息和Web数据元素之间的逻辑关系.为了克服现有条件随机场模型Viterbi推理方法无法综合利用这2类约束的不足,该模型采用整数线性规划推理方法,将两类约束同时引入推理过程.通过在多个领域的真实数据集上的实验结果表明,所提出的模型能够显著提高Web数据语义标注的性能,并且为Web信息抽取奠定了良好的基础. 展开更多
关键词 语义标注 web信息抽取 条件随机场 整数线性规划 web数据集成
在线阅读 下载PDF
基于混合跳链条件随机场的异构Web记录集成方法 被引量:8
6
作者 黄健斌 姬红兵 孙鹤立 《软件学报》 EI CSCD 北大核心 2008年第8期2149-2158,共10页
提出了一种混合跳链条件随机场序列统计学习模型,以实现异构Web记录与关系数据库的模式匹配.该模型可以在由手工标注样本和关系数据库记录组成的联合样本集上进行训练,减少了对繁琐手工标注样本的依赖.此外,通过在线性链条件随机场模型... 提出了一种混合跳链条件随机场序列统计学习模型,以实现异构Web记录与关系数据库的模式匹配.该模型可以在由手工标注样本和关系数据库记录组成的联合样本集上进行训练,减少了对繁琐手工标注样本的依赖.此外,通过在线性链条件随机场模型上增加对跳边的支持,使得该模型能够有效地处理状态变量间的长距离依赖.在多个领域的真实数据集上的实验结果表明,所提出的方法能够显著提高异构Web记录语义模式匹配的性能. 展开更多
关键词 混合跳链条件随机场 web数据集成 模式匹配
在线阅读 下载PDF
一种可行的Web数据抽取包装器的设计方法 被引量:3
7
作者 李宏伟 史培中 张素智 《计算机应用与软件》 CSCD 2009年第3期110-113,共4页
Web包装器是根据特定的抽取规则从特定的Web数据源执行数据抽取程序,设计Web包装器是Web信息抽取和集成的关键技术。针对网页结构的不确定性和易变性,详细阐述了一种基于预定义模式的Web包装器的设计与实现过程,并选取了几个出版社的新... Web包装器是根据特定的抽取规则从特定的Web数据源执行数据抽取程序,设计Web包装器是Web信息抽取和集成的关键技术。针对网页结构的不确定性和易变性,详细阐述了一种基于预定义模式的Web包装器的设计与实现过程,并选取了几个出版社的新书发布Web页面进行了数据抽取验证和抽取结果分析,取得了较好的效果。充分体现了此Web包装器的可行性,并具有一定的高效性及可维护性,能够应用在基于Wrapper/Mediator方法的Web数据集成。 展开更多
关键词 包装器 抽取规则 信息抽取 web数据集成
在线阅读 下载PDF
基于CPN网络的Deep Web数据语义标注
8
作者 马安香 高克宁 +1 位作者 张晓红 张斌 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2009年第6期794-797,共4页
全面准确地标注Deep Web数据是实现Deep Web数据集成系统的关键问题,然而现有的DeepWeb数据语义标注方法还不能很好地解决这一问题.提出一种基于CPN网络的Deep Web数据语义标注方法,通过提取属性值的基本特征,采用CPN网络实现Deep Web... 全面准确地标注Deep Web数据是实现Deep Web数据集成系统的关键问题,然而现有的DeepWeb数据语义标注方法还不能很好地解决这一问题.提出一种基于CPN网络的Deep Web数据语义标注方法,通过提取属性值的基本特征,采用CPN网络实现Deep Web数据语义标注.同时,采取了一种有效的方法准确获取Deep Web结果页面中的属性值,为语义标注奠定了良好的基础.与同类成果相比,基于CPN网络的Deep Web数据语义标注方法提高了语义标注的准确率及召回率. 展开更多
关键词 DEEP web数据集成 语义标注 CPN网络 特征选取 分隔符序列
在线阅读 下载PDF
多Web数据源环境下的重复实体识别方法研究 被引量:3
9
作者 刘伟 肖建国 《计算机科学与探索》 CSCD 2010年第7期599-607,共9页
Web中大量可访问的数据源为人们获取有用的信息带来了极大的便利。作为Web数据源集成的一个必要的步骤,需要将存在于不同数据源表达形式各异的重复Web实体准确地识别出来。在已有的重复实体识别的工作中,主要是在两个数据源之间进行。由... Web中大量可访问的数据源为人们获取有用的信息带来了极大的便利。作为Web数据源集成的一个必要的步骤,需要将存在于不同数据源表达形式各异的重复Web实体准确地识别出来。在已有的重复实体识别的工作中,主要是在两个数据源之间进行。由于Web数据源数量众多,使得这些方法无法应用于多个Web数据源之间的重复实体识别。针对这个问题提出了一种基于迭代训练的Web重复实体识别方法,可以在较小规模的训练样本上实现在多个Web数据源上的重复实体识别。通过在图书和计算机产品两个不同领域中多个Web数据源上的广泛实验,表明了提出方法的有效性。 展开更多
关键词 web实体 重复实体识别 web数据集成 迭代训练
在线阅读 下载PDF
新书发布信息集成查询系统的设计与实现 被引量:1
10
作者 李宏伟 史培中 张素智 《郑州轻工业学院学报(自然科学版)》 CAS 2008年第3期108-111,116,共5页
针对各出版社新书发布信息集成的需求,利用Web数据集成技术,设计了一种新书发布信息集成查询系统.系统基于B/S结构流行开发架构Struts+Hibernate,具有一定的扩展性,可以扩展成为集图书信息查询检索服务与网上购书系统于一体的网上购书平台.
关键词 信息集成 新书发布信息 分页 web数据集成
在线阅读 下载PDF
ScholarSpace:面向计算机领域的学术空间 被引量:4
11
作者 陈威 王仲远 +2 位作者 杨森 张鹏 孟小峰 《计算机研究与发展》 EI CSCD 北大核心 2011年第S3期395-399,共5页
针对目前国内学者在学术信息收集整理、学术主页建立与维护以及基于社会网络的学术交流中面临的问题,设计实现了面向国内计算机领域学者的学术空间ScholarSpace.ScholarSpace采用面向领域的DeepWeb数据集成技术,实现对Web上公开数据源... 针对目前国内学者在学术信息收集整理、学术主页建立与维护以及基于社会网络的学术交流中面临的问题,设计实现了面向国内计算机领域学者的学术空间ScholarSpace.ScholarSpace采用面向领域的DeepWeb数据集成技术,实现对Web上公开数据源中学术信息的自动集成和处理,并提供以作者为中心的学术信息检索.ScholarSpace由3部分组成,即文献集成系统SearchScholar,学术主页生成系统EasyScholar和学者间社交网络SocialScholar.EasyScholar基于SearchScholar开发完成,SocialScholar基于EasyScholar开发完成,而SocialScholar通过引入在线学术社交进一步提高SearchScholar的学术搜索质量和能力.3个子系统形成彼此促进的关系,构成了一个学术信息和资源汇集与分享的良性循环,为我国学者的学术交流提供便利. 展开更多
关键词 学术空间 学术信息集成 社会网络 web数据集成
在线阅读 下载PDF
MDOM:一种支持Mashup编排优化的频繁模式发现模型
12
作者 彭敦陆 谢蕾 +1 位作者 段凯 江平 《小型微型计算机系统》 CSCD 北大核心 2014年第9期1999-2003,共5页
通过访问Open API,用户可以轻松地获取站点的数据或服务,实现多个站点的数据和应用集成,构建个性化的Mashup应用.然而,随着可供选用的Open API数目和种类的增多,为快速构建高效的Mashup应用提出了挑战.本文在分析已有Mashup应用中可能... 通过访问Open API,用户可以轻松地获取站点的数据或服务,实现多个站点的数据和应用集成,构建个性化的Mashup应用.然而,随着可供选用的Open API数目和种类的增多,为快速构建高效的Mashup应用提出了挑战.本文在分析已有Mashup应用中可能存在的Open API编排模式基础上,根据Open API编排模式的有向性,提出了描述Mashup应用的有向编排图模型--MDOM.根据MDOM特征,利用有向图理论及频繁模式发现相关算法,提出了适合于MDOM特征的频繁子图挖掘算法FSOMM,并用实验验证了该算法的性能.通过将该算法运用于真实数据集,实现了真实频繁Mashup编排模式的挖掘.该模型的提出以及频繁编排模式的发现,为用户在构建Mashup应用时选择合适的Open API编排模式提供依据,从而为创建高效的Mashup应用提供保障. 展开更多
关键词 Mashup应用 API编排 频繁编排模式 web数据集成
在线阅读 下载PDF
基于多特征融合的无监督真值发现方法 被引量:2
13
作者 陈华凤 董永权 +1 位作者 杨昊霖 张国玺 《数据采集与处理》 CSCD 北大核心 2023年第3期629-642,共14页
真值发现是数据集成领域具有挑战性的研究热点之一。传统的方法利用数据源与观测值之间的交互关系推断真值,缺乏足够的特征信息;基于深度学习的方法可以有效地进行特征抽取,但其性能依赖于大量手工标注,而在实际应用中很难获取到大量高... 真值发现是数据集成领域具有挑战性的研究热点之一。传统的方法利用数据源与观测值之间的交互关系推断真值,缺乏足够的特征信息;基于深度学习的方法可以有效地进行特征抽取,但其性能依赖于大量手工标注,而在实际应用中很难获取到大量高质量的真值标签。为克服以上问题,本文提出一种基于多特征融合的无监督真值发现方法(Unsupervised truth discovery method based on multi-feature fusion,MFOTD)。首先,利用集成学习无监督标注“真值”标签;然后,分别使用预训练模型Bert和独热编码获取观测值的语义特征和交互特征;最后,融合观测值多种特征并使用其“真值”标签构建初始训练集,通过自训练方式训练真值预测模型。在两个真实数据集上的实验结果表明,与已有方法相比,本文所提出的方法具有更高的真值发现准确性。 展开更多
关键词 web数据集成 半监督学习 数据清洗 真值发现 数据源质量
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部