期刊文献+
共找到74篇文章
< 1 2 4 >
每页显示 20 50 100
一种Deep Web数据源质量评估模型 被引量:6
1
作者 鲜学丰 方巍 +2 位作者 赵朋朋 崔志明 胡鹏昱 《微电子学与计算机》 CSCD 北大核心 2008年第10期47-50,共4页
分析了影响Deep Web数据源质量评估的若干因素,提出了一种Deep Web数据源质量评估模型.该模型从浏览器、Web数据库、Web服务器和用户四个方面对数据源进行质量评估.通过在真实的Deep Web数据源上进行实验验证,说明该方法是有效和可行的.
关键词 deep web web数据库 web服务器 质量
在线阅读 下载PDF
基于伪属性语义匹配的Deep web信息抽取 被引量:4
2
作者 郑皎凌 唐常杰 +2 位作者 姜玥 杨宁 李红军 《四川大学学报(工程科学版)》 EI CAS CSCD 北大核心 2009年第2期173-178,共6页
已有的Deep Web信息抽取算法主要对结构规范的网页进行模版的提取,目前多数Deep Web网页在结构上是非规范的,网页中记录属性字段可能缺失或重复、原子属性字段可能被html标签分隔。为了正确抽取这些非规范网页,提出了一种新方法:引入了... 已有的Deep Web信息抽取算法主要对结构规范的网页进行模版的提取,目前多数Deep Web网页在结构上是非规范的,网页中记录属性字段可能缺失或重复、原子属性字段可能被html标签分隔。为了正确抽取这些非规范网页,提出了一种新方法:引入了记录的伪属性及其语义匹配概念,通过实现记录间伪属性序列的语义匹配实现信息抽取;提出了伪属性序列的模型及其语义匹配算法和记录Wrapper模型及其生成算法。实验表明,在结构不规范deep web网页的抽取上,能达到91%的查全率和93%的查准率,相对其它算法有一定优势。 展开更多
关键词 deep web 信息抽取 伪属性 语义匹配
在线阅读 下载PDF
基于查询接口特征的Deep Web数据源自动分类 被引量:11
3
作者 赵朋朋 高岭 崔志明 《微电子学与计算机》 CSCD 北大核心 2006年第10期47-50,共4页
搜索引擎可以很好地搜索出大部分可索引页面,然而,Internet上有大量的页面是由后台数据库动态产生的,传统的搜索引擎搜索不出这部分页面,我们称之为DeepWeb。其中大部分DeepWeb是结构化的,它提供结构化的查询接口和结构化的结果。把这... 搜索引擎可以很好地搜索出大部分可索引页面,然而,Internet上有大量的页面是由后台数据库动态产生的,传统的搜索引擎搜索不出这部分页面,我们称之为DeepWeb。其中大部分DeepWeb是结构化的,它提供结构化的查询接口和结构化的结果。把这些结构化的DeepWeb数据源按所属领域进行组织可以方便用户浏览这些有价值的资源,并且这也是大规模DeepWeb集成搜索的一个关键步骤。提出了一种基于查询接口特征的DeepWeb数据源自动分类方法,并通过实验验证该方法是非常有效的。 展开更多
关键词 deep web 自动分类 机器学习 数据集成
在线阅读 下载PDF
基于属性值序列图模型的deep Web新数据发现策略 被引量:3
4
作者 鲜学丰 崔志明 +3 位作者 赵朋朋 方立刚 杨元峰 顾才东 《通信学报》 EI CSCD 北大核心 2016年第3期20-32,共13页
针对数据源新产生数据记录的增量爬取问题,提出了一种deep Web新数据发现策略,该策略采用一种新的属性值序列图模型表示deep Web数据源,将新数据发现问题转化为属性值序列图的遍历问题,该模型仅与数据相关,与现有查询关联图模型相比,具... 针对数据源新产生数据记录的增量爬取问题,提出了一种deep Web新数据发现策略,该策略采用一种新的属性值序列图模型表示deep Web数据源,将新数据发现问题转化为属性值序列图的遍历问题,该模型仅与数据相关,与现有查询关联图模型相比,具有更强的适应性和确定性,可适用于仅仅包含简单查询接口的deep Web数据源。在此模型的基础上,发现增长节点并预测其新数据发现能力;利用互信息计算节点之间的依赖关系,查询选择时尽可能地降低查询依赖带来的负面影响。该策略提高了新数据爬取的效率,实验结果表明,在相同资源约束前提下,该策略能使本地数据和远程数据保持最大化同步。 展开更多
关键词 deep web 新数据发现 数据获取
在线阅读 下载PDF
基于循环策略和动态知识的deep Web数据获取方法 被引量:3
5
作者 鲜学丰 崔志明 +2 位作者 赵朋朋 梁颖红 方立刚 《通信学报》 EI CSCD 北大核心 2012年第10期35-43,共9页
针对目前deep Web数据集成在数据获取方面存在代价大和查询选择效率低等问题,提出了一种基于循环策略和动态知识的deep Web数据获取方法,该方法根据同领域数据源之间的关联关系,提出使用循环策略分多次完成数据源的数据获取,同时利用集... 针对目前deep Web数据集成在数据获取方面存在代价大和查询选择效率低等问题,提出了一种基于循环策略和动态知识的deep Web数据获取方法,该方法根据同领域数据源之间的关联关系,提出使用循环策略分多次完成数据源的数据获取,同时利用集成系统已获取的数据动态构建知识,并设计了基于集成系统动态知识的查询选择方法。与现有方法比较该方法能降低数据获取的代价,提高查询选择的准确性。实验结果表明,该方法有效地提高了deep Web数据集成的数据获取效率。 展开更多
关键词 deep web 数据集成 数据获取 动态知识 查询选择
在线阅读 下载PDF
基于语义的Deep Web数据源自动发现技术 被引量:4
6
作者 方巍 胡鹏昱 +1 位作者 赵朋朋 崔志明 《微电子学与计算机》 CSCD 北大核心 2007年第9期60-63,共4页
为了方便用户快捷高效的使用DeepWeb中内容丰富、主题专一的高质量信息,对DeepWeb数据源发现研究已成为一个非常迫切的问题。目前通用的方法是基于关键词的主题过滤策略,这样容易发现一些不相关的数据源,为此提出一种新的基于语义的Deep... 为了方便用户快捷高效的使用DeepWeb中内容丰富、主题专一的高质量信息,对DeepWeb数据源发现研究已成为一个非常迫切的问题。目前通用的方法是基于关键词的主题过滤策略,这样容易发现一些不相关的数据源,为此提出一种新的基于语义的DeepWeb数据源聚焦爬行方法,利用朴素贝叶斯分类算法自动发现DeepWeb数据源,实验验证了该方法的有效性。 展开更多
关键词 Deed web 语义 本体 表单
在线阅读 下载PDF
一种面向Deep Web数据源的重复记录识别模型 被引量:3
7
作者 申德荣 刘丽楠 +2 位作者 寇月 聂铁铮 于戈 《电子学报》 EI CAS CSCD 北大核心 2010年第2期275-281,共7页
重复记录是指描述现实世界中同一实体的不同的记录信息.由于从同一个领域的不同Deep Web数据源中抽取的记录信息通常存在许多重复记录,本文针对半结构化的重复记录的识别进行研究.在已知全局模式和全局模式与各Deep Web数据源查询接口... 重复记录是指描述现实世界中同一实体的不同的记录信息.由于从同一个领域的不同Deep Web数据源中抽取的记录信息通常存在许多重复记录,本文针对半结构化的重复记录的识别进行研究.在已知全局模式和全局模式与各Deep Web数据源查询接口映射关系的基础上,提出了一种重复记录识别模型.基于从Deep Web中抽取出的半结构化的数据,采用查询探测方法确定所抽取数据所匹配的属性,通过分析抽取的实例数据确定属性重要度,结合多种相似度估算器和多种算法计算记录间的相似度,进而识别重复记录.实验表明,该重复记录识别模型在Deep Web环境下是可行且有效的. 展开更多
关键词 重复记录 深层web 数据清洗
在线阅读 下载PDF
扩展的Deep Web质量估计模型研究 被引量:3
8
作者 胡鹏昱 苗忠义 +1 位作者 崔志明 方巍 《微电子学与计算机》 CSCD 北大核心 2008年第9期24-27,共4页
Deep Web中蕴涵了海量的高质量信息.文中从Deep Web数据源的功能属性和非功能属性两个方面对数据源的质量进行度量,建立了一种基于综合模糊评价指标体系的扩展的数据源质量估计模型.实验结果表明该模型得到的数据源质量排序序列和人工... Deep Web中蕴涵了海量的高质量信息.文中从Deep Web数据源的功能属性和非功能属性两个方面对数据源的质量进行度量,建立了一种基于综合模糊评价指标体系的扩展的数据源质量估计模型.实验结果表明该模型得到的数据源质量排序序列和人工排序序列的Kendall’s距离较扩展前有了很大提高,而且质量估计结果也能使数据源的选择得到较高精确度. 展开更多
关键词 deep web 综合模糊评价 质量指标
在线阅读 下载PDF
一种Deep Web聚焦爬虫爬行策略 被引量:2
9
作者 蔡欣宝 陈洪平 +1 位作者 赵朋朋 崔志明 《微电子学与计算机》 CSCD 北大核心 2009年第8期117-120,共4页
实现大规模Deep Web数据源集成是方便用户使用Deep Web信息的一种有效途径.Deep Web爬虫是Deep Web数据源集成的关键组成部分.提出一种针对结构化Deep Web的聚焦爬虫爬行策略.通过对查询接口的特征分析来判断Deep Web数据源的主题相关性... 实现大规模Deep Web数据源集成是方便用户使用Deep Web信息的一种有效途径.Deep Web爬虫是Deep Web数据源集成的关键组成部分.提出一种针对结构化Deep Web的聚焦爬虫爬行策略.通过对查询接口的特征分析来判断Deep Web数据源的主题相关性.同时,在评价链接重要性时,综合考虑了页面内容的主题相关性和链接的相关信息.实验证明该方法是有效的. 展开更多
关键词 结构化deep web数据源 聚焦爬虫 决策树分类器
在线阅读 下载PDF
基于领域样本查询的Deep Web数据库分类 被引量:1
10
作者 鲜学丰 赵朋朋 +2 位作者 辛洁 方巍 崔志明 《微电子学与计算机》 CSCD 北大核心 2010年第3期20-23,共4页
提出了一种基于领域样本查询的方法以分类这类Web数据库.通过分析领域的高级查询接口自动获取领域主属性并使用领域知识为主属性构建查询样本,然后对查询接口提交试探查询,根据返回结果页面的结果模式和记录内容估计Web数据库与领域的... 提出了一种基于领域样本查询的方法以分类这类Web数据库.通过分析领域的高级查询接口自动获取领域主属性并使用领域知识为主属性构建查询样本,然后对查询接口提交试探查询,根据返回结果页面的结果模式和记录内容估计Web数据库与领域的相关程度.通过在多个领域的Web数据库上进行实验验证,说明该方法分类只提供简单查询接口的Web数据库是有效的,取得了较高的分类精确率,召回率和F-measure值. 展开更多
关键词 deep web web数据库 数据库分类 简单查询接口
在线阅读 下载PDF
Deep Web信息资源开发策略研究 被引量:1
11
作者 鞠彦辉 许燕 《现代情报》 北大核心 2008年第1期77-80,共4页
本文介绍了Deep Web的定义和特点,重点从宏观政策、各种可利用的工具和微观实现技术三方面讨论了Deep Web信息资源开发策略。
关键词 deep web 信息资源 开发策略
在线阅读 下载PDF
基于本体的Deep Web查询结果自动标注 被引量:1
12
作者 张素智 李丽娜 刘中锋 《郑州轻工业学院学报(自然科学版)》 CAS 2009年第6期1-4,14,共5页
为了获得完整统一的标注结果,将领域本体引入到查询结果语义标注过程中,给出基于本体的Deep Web查询结果自动标注框架,以解决接口数据类型的异构问题.该方法根据接口特征设计接口分析器,采用查询条件重置策略确定查询结果数据的语义标记... 为了获得完整统一的标注结果,将领域本体引入到查询结果语义标注过程中,给出基于本体的Deep Web查询结果自动标注框架,以解决接口数据类型的异构问题.该方法根据接口特征设计接口分析器,采用查询条件重置策略确定查询结果数据的语义标记.通过对多个不同领域Web数据库的测试,验证了该方法的有效性. 展开更多
关键词 deep web 本体 语义标注 模式匹配
在线阅读 下载PDF
Deep Web研究现状与展望 被引量:1
13
作者 高明 黄哲学 《集成技术》 2012年第3期47-54,共8页
随着Deep Web数量和规模的快速增长,通过对其发起查询请求以得到存储在后台数据库中的相关信息,日渐成为用户获取信息的主要方式。为了方便用户有效地利用Deep Web中的信息,越来越多的研究者致力于这一领域的研究,重点之一是Deep Web后... 随着Deep Web数量和规模的快速增长,通过对其发起查询请求以得到存储在后台数据库中的相关信息,日渐成为用户获取信息的主要方式。为了方便用户有效地利用Deep Web中的信息,越来越多的研究者致力于这一领域的研究,重点之一是Deep Web后台数据库的数据集成。由于Deep Web后台数据库存储的主要是文本信息,使得从文本处理角度出发,针对Deep Web中存储的内容进行查询与检索的研究具有十分广阔的应用前景。本文对Deep Web的研究现状进行了较为详细的分析,同时对研究的发展方向进行了展望。 展开更多
关键词 deep web web数据库 查询接口 web数据集成
在线阅读 下载PDF
基于CPN网络的Deep Web数据语义标注
14
作者 马安香 高克宁 +1 位作者 张晓红 张斌 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2009年第6期794-797,共4页
全面准确地标注Deep Web数据是实现Deep Web数据集成系统的关键问题,然而现有的DeepWeb数据语义标注方法还不能很好地解决这一问题.提出一种基于CPN网络的Deep Web数据语义标注方法,通过提取属性值的基本特征,采用CPN网络实现Deep Web... 全面准确地标注Deep Web数据是实现Deep Web数据集成系统的关键问题,然而现有的DeepWeb数据语义标注方法还不能很好地解决这一问题.提出一种基于CPN网络的Deep Web数据语义标注方法,通过提取属性值的基本特征,采用CPN网络实现Deep Web数据语义标注.同时,采取了一种有效的方法准确获取Deep Web结果页面中的属性值,为语义标注奠定了良好的基础.与同类成果相比,基于CPN网络的Deep Web数据语义标注方法提高了语义标注的准确率及召回率. 展开更多
关键词 deep web数据集成 语义标注 CPN网络 特征选取 分隔符序列
在线阅读 下载PDF
基于deep web数据库的个性化推荐系统
15
作者 巩玉玺 罗容 《煤炭技术》 CAS 北大核心 2009年第8期138-140,共3页
针对当前deep web数据库的迅猛发展,指出在deep web数据库上的个性化服务是电子商务发展的必然趋势,分析当前的deep web数据库和个性化服务技术的研究现状,提出了一个新的deep web上基于用户当前行为的个性化服务推荐系统CFBDW,讨论了... 针对当前deep web数据库的迅猛发展,指出在deep web数据库上的个性化服务是电子商务发展的必然趋势,分析当前的deep web数据库和个性化服务技术的研究现状,提出了一个新的deep web上基于用户当前行为的个性化服务推荐系统CFBDW,讨论了其实现的关键技术,实验证明,该算法具有较好的实用性。 展开更多
关键词 deep web数据库 个性化服务 聚类 用户行为
在线阅读 下载PDF
基于Deep Web数据集成的个性化信息服务研究
16
作者 张云坤 《现代情报》 CSSCI 2010年第10期74-76,共3页
互联网和信息数字化的高度发展为信息查询带来了新的挑战,如何改善查询模式使用户从海量的数据中快速找到真正需要的信息成为了当前业界亟待解决的课题。本文描述了一种个性化信息服务模型,使用DeepWeb数据集成技术设计了一个图书馆数... 互联网和信息数字化的高度发展为信息查询带来了新的挑战,如何改善查询模式使用户从海量的数据中快速找到真正需要的信息成为了当前业界亟待解决的课题。本文描述了一种个性化信息服务模型,使用DeepWeb数据集成技术设计了一个图书馆数字资源个性化信息服务系统,实现了以用户为中心的图书馆信息服务。 展开更多
关键词 deepweb 个性化服务 数据集成
在线阅读 下载PDF
Deep Web信息资源的查询接口集成研究
17
作者 林爱群 习万球 《热带农业科学》 2011年第12期87-90,共4页
Deep Web信息是隐藏在Web服务器中可搜索的数据库信息资源,其信息量远比表面web信息量大。将Deep Web信息查询的接口模式集成为统一的查询接口,将极大地提高web信息检索的查全率和查准率。讨论了查询模式集成问题的聚类分析方法,相对于... Deep Web信息是隐藏在Web服务器中可搜索的数据库信息资源,其信息量远比表面web信息量大。将Deep Web信息查询的接口模式集成为统一的查询接口,将极大地提高web信息检索的查全率和查准率。讨论了查询模式集成问题的聚类分析方法,相对于直接对Deep Web数据源的进行集成,对查询模式加以集成的思路成本更低。 展开更多
关键词 模式集成 深度web 表面web 查询接口
在线阅读 下载PDF
基于MapReduce虚拟机的Deep Web数据源发现方法 被引量:3
18
作者 辛洁 崔志明 +2 位作者 赵朋朋 张广铭 鲜学丰 《通信学报》 EI CSCD 北大核心 2011年第7期189-195,共7页
为了提高Deep Web爬虫发现和搜集数据源的效率,提出了一种融合MapReduce和虚拟化技术实现DeepWeb海量数据挖掘的并行计算方法。基于MapReduce架构提出了一个Deep Web爬虫模型,通过链接过滤分类、页面过滤分类、表单过滤分类等3个MapRed... 为了提高Deep Web爬虫发现和搜集数据源的效率,提出了一种融合MapReduce和虚拟化技术实现DeepWeb海量数据挖掘的并行计算方法。基于MapReduce架构提出了一个Deep Web爬虫模型,通过链接过滤分类、页面过滤分类、表单过滤分类等3个MapReduce过程找到Deep Web数据源接口,并利用虚拟机构建单机集群进行性能测试。实验结果显示该方法可以实现大规模数据的并行处理,有效提高爬虫数据源发现的效率,避免网络及物理资源的浪费,验证了云计算技术在Deep Web数据挖掘方面的可行性。 展开更多
关键词 数据源发现 MAPREDUCE deep web 虚拟化技术 云计算
在线阅读 下载PDF
基于Deep Web的模式匹配算法研究 被引量:1
19
作者 段晓飞 张素智 马红 《郑州轻工业学院学报(自然科学版)》 CAS 2008年第3期73-75,89,共4页
依据对Deep Web进行模式匹配查询时主要根据查询接口上属性所出现的具体语义和值的相似度来判断属性是否匹配的原理,针对同一主题下的一组查询接口,根据已知的属性统计信息判断属性之间的匹配关系,提出用关联规则挖掘方法进行Deep Web... 依据对Deep Web进行模式匹配查询时主要根据查询接口上属性所出现的具体语义和值的相似度来判断属性是否匹配的原理,针对同一主题下的一组查询接口,根据已知的属性统计信息判断属性之间的匹配关系,提出用关联规则挖掘方法进行Deep Web模式匹配,以实现Web查询接口的自动匹配.实例证明该关联规则挖掘算法是有效的. 展开更多
关键词 deep web 模式匹配 关联规则挖掘
在线阅读 下载PDF
Deep Web数据集成系统中的查询效率优化 被引量:2
20
作者 刘鸿飞 《河北省科学院学报》 CAS 2009年第2期11-13,共3页
Deep Web能够提供大量高质量的信息,为了有效地利用这些信息,建立Deep Web数据集成系统是重要手段。Deep Web数据集成系统的查询效率是其应用的关键。本文采用建立本地索引数据库的方式以提高查询效率,在此基础上提出了其相应的更新策略... Deep Web能够提供大量高质量的信息,为了有效地利用这些信息,建立Deep Web数据集成系统是重要手段。Deep Web数据集成系统的查询效率是其应用的关键。本文采用建立本地索引数据库的方式以提高查询效率,在此基础上提出了其相应的更新策略,并给出了算法分析。 展开更多
关键词 deepweb 统一查询接口 查询效率
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部