期刊文献+
共找到19篇文章
< 1 >
每页显示 20 50 100
面向混合类型关键词查询的非合作结构化深网数据源选择 被引量:6
1
作者 万常选 邓松 +2 位作者 刘德喜 江腾蛟 刘喜平 《计算机研究与发展》 EI CSCD 北大核心 2014年第4期905-917,共13页
为有效地利用深网中的资源,深网集成应运而生.为了提高深网集成的效率和返回结果的质量,数据源选择成为深网集成的关键技术.深网数据源大多数是结构化和非合作型的.当前已有的非合作结构化深网数据源选择的研究分为2类:一类是面向离散... 为有效地利用深网中的资源,深网集成应运而生.为了提高深网集成的效率和返回结果的质量,数据源选择成为深网集成的关键技术.深网数据源大多数是结构化和非合作型的.当前已有的非合作结构化深网数据源选择的研究分为2类:一类是面向离散型关键词查询的源选择;另一类是面向字符型关键词查询的源选择,而未见面向混合类型关键词查询的结构化数据源选择的相关研究.基于此,将用户查询关键词分为检索型关键词和约束型关键词,基于主题词与主题词、主题词与特征词和直方图与直方图的关联特征构建了面向检索型、约束型混合关键词查询的层次化数据源摘要,有效地反映了非合作结构化深网数据源选择中检索型关键词的检索意图和约束型关键词的约束相关性,并依据此摘要给出了相应的数据源选择策略.实验结果表明,该方法在面向混合类型关键词查询的非合作结构化深网数据源选择时具有较好的记录召回率及准确率. 展开更多
关键词 混合类型关键词检索 非合作 结构化 深网 数据源选择
在线阅读 下载PDF
基于用户反馈的深网数据源选择 被引量:3
2
作者 邓松 万常选 +1 位作者 刘喜平 廖国琼 《小型微型计算机系统》 CSCD 北大核心 2012年第11期2367-2371,共5页
在因特网上,每个主题往往拥有成百上千个相关的深网数据源,从众多的数据源中找到合适的源进行数据集成变得越来越重要.传统的考虑源质量的选择方法是不考虑源主题特性的,而是根据经验选取统一的质量维度,因而在不同主题下选择准确性有... 在因特网上,每个主题往往拥有成百上千个相关的深网数据源,从众多的数据源中找到合适的源进行数据集成变得越来越重要.传统的考虑源质量的选择方法是不考虑源主题特性的,而是根据经验选取统一的质量维度,因而在不同主题下选择准确性有较大的差异.基于此,提出基于用户反馈的深网源选择方法,依据用户反馈获取特定主题源的核心质量维度从而建立质量评价模型.选取了三个不同主题下的数据源进行了相关的验证,实验结果表明,针对不同主题下的数据源选取,该方法均具有较高的准确性且计算量较少. 展开更多
关键词 用户反馈 数据质量 深网 数据源选择
在线阅读 下载PDF
基于动态学习的Deep Web数据源选择算法 被引量:3
3
作者 段青玲 杨仁刚 华松青 《郑州大学学报(理学版)》 CAS 北大核心 2010年第1期5-8,共4页
提出了基于查询过程的动态计算数据源和查询关键词相似度的算法.当用户查询时,从数据源中选择子集进行查询,然后计算结果网页与查询关键词的相似度,按加权均值法调整该数据源的相似度,随着系统的运行,数据源与关键词的相似度不断被动态... 提出了基于查询过程的动态计算数据源和查询关键词相似度的算法.当用户查询时,从数据源中选择子集进行查询,然后计算结果网页与查询关键词的相似度,按加权均值法调整该数据源的相似度,随着系统的运行,数据源与关键词的相似度不断被动态调整以反映数据源的实际情况,从而为数据源选择做出判断依据. 展开更多
关键词 DEEP WEB 数据源选择 查询接口 自适应方法
在线阅读 下载PDF
基于主题模型的深层网数据源选择算法 被引量:3
4
作者 王秋月 曹巍 史少晨 《计算机应用》 CSCD 北大核心 2015年第9期2553-2559,2595,共8页
联邦搜索是从大规模深层网上获取信息的一种重要技术。给定一个用户查询,联邦搜索系统需要解决的一个主要问题是数据源选择问题,即从海量数据源中选出一组最有可能返回相关结果的数据源。现有的数据源选择算法大多基于数据源的样本文档... 联邦搜索是从大规模深层网上获取信息的一种重要技术。给定一个用户查询,联邦搜索系统需要解决的一个主要问题是数据源选择问题,即从海量数据源中选出一组最有可能返回相关结果的数据源。现有的数据源选择算法大多基于数据源的样本文档集和查询之间的关键词匹配,通常无法很好地解决少量样本文档的信息缺失问题。针对这一问题,提出了基于隐含狄利克雷分布(LDA)主题模型进行数据源选择的方法。首先,使用LDA主题模型获得数据源和查询的主题概率分布;然后,通过比较两者主题概率分布的相近性来对所有数据源进行排序。通过将数据源和查询映射到低维的主题空间来解决高维词条空间稀疏性所带来的信息缺失问题。在TREC Fed Web 2013和2014 Track的测试集上分别进行了实验,并和其他参赛方法的结果进行了比较。在Fed Web 2013测试集上的实验结果显示比其他参赛方法的最好结果提高了24%;在Fed Web 2014测试集上的实验结果显示比传统的基于小文档和大文档的关键词匹配方法分别提高了22%和43%。另外,使用文档片段来代替文档还可以大幅提升系统的效率,更增加了此方法的实用性和可行性。 展开更多
关键词 深层网 主题模型 隐含狄利克雷分布 数据源选择 联邦搜索
在线阅读 下载PDF
基于主题与概率模型的非合作深网数据源选择 被引量:1
5
作者 邓松 万常选 《软件学报》 EI CSCD 北大核心 2017年第12期3241-3256,共16页
在深网数据集成过程中,用户希望仅检索少量数据源便能获取高质量的检索结果,因而数据源选择成为其核心技术.为满足基于相关性和多样性的集成检索需求,提出一种适合小规模抽样文档摘要的深网数据源选择方法.该方法在数据源选择过程中首... 在深网数据集成过程中,用户希望仅检索少量数据源便能获取高质量的检索结果,因而数据源选择成为其核心技术.为满足基于相关性和多样性的集成检索需求,提出一种适合小规模抽样文档摘要的深网数据源选择方法.该方法在数据源选择过程中首先度量数据源与用户查询的相关性,然后进一步考虑候选数据源提供数据的多样性.为提升数据源相关性判别的准确性,构建了基于层次主题的数据源摘要,并在其中引入了主题内容相关性偏差概率模型,且给出了基于人工反馈的偏差概率模型构建方法以及基于概率分析的数据源相关性度量方法.为提升数据源选择结果的多样性程度,在基于层次主题的数据源摘要中建立了多样性链接有向边,并给出了数据源多样性的评价方法.最后,将基于相关性和多样性的数据源选择问题转化为一个组合优化问题,提出了基于优化函数的数据源选择策略.实验结果表明:在基于少量抽样文档进行数据源选择时,该方法具有较高的选择准确率. 展开更多
关键词 深网 数据源选择 主题 概率模型 TextRank
在线阅读 下载PDF
面向医学领域实体关联检索的深网数据源选择 被引量:1
6
作者 邓松 陈辉 《计算机工程与应用》 CSCD 北大核心 2016年第10期135-140,共6页
每个领域下的深网数据源众多,如果检索领域内所有深网以获取所需的集成信息,那么工作量将十分巨大,因而数据源选择技术应运而生。医学领域实体间存在着丰富的关联关系,把相关关联信息进行有效集成可以促进人们健康生活。为提升医学领域... 每个领域下的深网数据源众多,如果检索领域内所有深网以获取所需的集成信息,那么工作量将十分巨大,因而数据源选择技术应运而生。医学领域实体间存在着丰富的关联关系,把相关关联信息进行有效集成可以促进人们健康生活。为提升医学领域实体关联的信息集成效率,提出了一种基于实体关联特征的数据源选择方法。基于实体关联图中的实体权重以及链接信息,构建了实体关联矩阵摘要;基于实体关联查询意图提出了数据源相关性计算方法。利用领域数据集进行了大量的实验,结果表明所提出方法准确率和召回率较高,可以为医学领域信息集成提供有效支撑。 展开更多
关键词 数据源选择 摘要 医学 实体关联
在线阅读 下载PDF
Deep Web集成系统中同类主题数据源选择方法 被引量:1
7
作者 王成良 桑银邦 《计算机应用研究》 CSCD 北大核心 2011年第9期3364-3367,共4页
提出了一个同类主题的Deep Web数据源选择方法,该方法通过数据源差异性分析可有效判断出新数据源的内容与集成系统中已有内容的重复度,进而利用查准率和查全率建立质量估计模型评估各数据源的质量,削弱了已有研究中因查准率低对质量评... 提出了一个同类主题的Deep Web数据源选择方法,该方法通过数据源差异性分析可有效判断出新数据源的内容与集成系统中已有内容的重复度,进而利用查准率和查全率建立质量估计模型评估各数据源的质量,削弱了已有研究中因查准率低对质量评估产生的负面影响。在主流图书类网站上的实验结果表明,该方法能减少系统的负担,同时获取质量较高的同类主题的数据源。 展开更多
关键词 差异性分析 DEEPWEB 数据源选择 质量评估模型
在线阅读 下载PDF
实体信息集成检索的深网数据源选择 被引量:2
8
作者 邓松 《计算机工程》 CAS CSCD 北大核心 2016年第10期75-79,共5页
在深网集成检索中,用户通常希望仅向少量数据源提交查询即可获得高质量的检索结果,因而数据源选择成为关键问题。为提升实体信息集成检索的效率,提出一种考虑相关性和重复度的数据源选择方法。给出基于主题与情感词的深网数据源摘要构... 在深网集成检索中,用户通常希望仅向少量数据源提交查询即可获得高质量的检索结果,因而数据源选择成为关键问题。为提升实体信息集成检索的效率,提出一种考虑相关性和重复度的数据源选择方法。给出基于主题与情感词的深网数据源摘要构建方法,利用用户反馈识别实体信息的主题类别,根据情感词度量数据源内容之间的重复性,并结合主题相关性和内容重复度设计相应的深网数据源计分策略。实验结果表明,该方法可以基于小数据摘要获得较高的准确率与召回率,为实体信息集成检索提供有效支撑。 展开更多
关键词 与主题词 主题词与特征词和直方图的关键 数据源选择 深网 实体 信息集成 用户反馈
在线阅读 下载PDF
基于尺度选择性的空间数据源选择与预取策略
9
作者 陈荦 吴秋云 +1 位作者 景宁 唐宇 《国防科技大学学报》 EI CAS CSCD 北大核心 2005年第3期81-85,共5页
合理高效的数据源选择策略是提高空间信息检索系统效率的重要因素之一。针对以往研究中对空间尺度语义关注程度的不足,提出一种结合空间尺度语义选择检索数据源的方法。该方法综合考虑人眼视觉特性,计算出参与分布式查询计划生成的数据... 合理高效的数据源选择策略是提高空间信息检索系统效率的重要因素之一。针对以往研究中对空间尺度语义关注程度的不足,提出一种结合空间尺度语义选择检索数据源的方法。该方法综合考虑人眼视觉特性,计算出参与分布式查询计划生成的数据源集合,过滤在尺度意义上对最终查询结果无影响的数据源,并通过将数据源的简化表达进行预取,进一步减少了查询的整体执行代价。实验结果表明,提出的方法在大尺度查询和小尺度查询时均具有良好的性能。 展开更多
关键词 空间信息检索 数据源选择 空间信息系统
在线阅读 下载PDF
Web大数据系统数据源选择
10
作者 刘正涛 王建东 《计算机科学与探索》 CSCD 北大核心 2018年第3期360-369,共10页
如何从数量众多的Web数据源集合中选择数量合适的数据源,使得在满足特定查询需求的前提下尽可能地减少访问数据源的数量,是Web大数据系统集成中的关键问题之一。提出了一个两阶段数据源选择方案:第一阶段通过各个数据源模式与中间模式... 如何从数量众多的Web数据源集合中选择数量合适的数据源,使得在满足特定查询需求的前提下尽可能地减少访问数据源的数量,是Web大数据系统集成中的关键问题之一。提出了一个两阶段数据源选择方案:第一阶段通过各个数据源模式与中间模式的相似度选择与查询相关度高的数据源,通过计算依赖数据源的质量来选取质量较好的数据源;第二阶段基于最大熵理论计算数据源之间的重复率,设计实现了一个查询最小代价模型动态选择数据源算法。最后在实验平台上对算法进行了评估,实验表明该算法具有较高的效率与扩展性。 展开更多
关键词 WEB 数据 数据源选择 数据质量 数据依赖
在线阅读 下载PDF
基于分层抽样的重叠深网数据源选择 被引量:3
11
作者 江俊彦 彭智勇 +2 位作者 吴小莹 彭承晨 王敏 《软件学报》 EI CSCD 北大核心 2017年第5期1271-1295,共25页
深网查询在Web上众多的应用,需要查询大量的数据源才能获得足够的数据,如多媒体数据搜索、团购网站信息聚合等.应用的成功,取决于查询多数据源的效率和效果.当前研究侧重查询与数据源的相关性而忽略数据源之间的重叠关系,使得不同数据... 深网查询在Web上众多的应用,需要查询大量的数据源才能获得足够的数据,如多媒体数据搜索、团购网站信息聚合等.应用的成功,取决于查询多数据源的效率和效果.当前研究侧重查询与数据源的相关性而忽略数据源之间的重叠关系,使得不同数据源上相同结果的数据被重复查询,增加了查询开销及数据源的工作负载.为了提高深网查询的效率,提出一种元组水平的分层抽样方法来估计和利用查询在数据源上的统计数据,选择高相关、低重叠的数据源.该方法分为两个阶段:离线阶段,基于元组水平对数据源进行分层抽样,获得样本数据;在线阶段,基于样本数据迭代地估计查询在数据源上的覆盖率和重叠率,并采用一种启发式策略以高效地发现低重叠的数据源.实验结果表明,该方法能够显著提高重叠数据源选择的精度和效率. 展开更多
关键词 数据源选择 分层抽样 数据重叠率估计 回归
在线阅读 下载PDF
XML关键字检索系统的数据源选择 被引量:4
12
作者 朱冠胜 黄浩 杨卫东 《小型微型计算机系统》 CSCD 北大核心 2012年第6期1183-1188,共6页
随着互联网数据爆炸式的增长,信息检索系统逐步采用分布式多数据源架构存储数据,在关键字检索时,选择与用户查询的关键字相关度大的数据源进行查询对提高检索效率显得格为重要.提出一种基于关键字检索的XML数据源选择方法,针对XML文档... 随着互联网数据爆炸式的增长,信息检索系统逐步采用分布式多数据源架构存储数据,在关键字检索时,选择与用户查询的关键字相关度大的数据源进行查询对提高检索效率显得格为重要.提出一种基于关键字检索的XML数据源选择方法,针对XML文档结构的层次特性,提出一种递归定义的结果评分模型,将结点的关键字频率与路径长度递归地加入到评分模型中,使得评分模型能够准确地评判结果的优劣.同时,利用评分模型定义并提取了XML数据源的摘要,并给出了摘要存储中涉及的压缩、优化、更新等问题的解决方案及算法.根据摘要信息,提出4种数据源选择的方案,并使用DBLP数据集来验证了文章所提出的数据源选择算法的有效性. 展开更多
关键词 XML 数据源选择 关键字检索
在线阅读 下载PDF
基于Choquet积分的深层网数据源选择 被引量:1
13
作者 郭若飞 蔡欣宝 +1 位作者 赵朋朋 崔志明 《计算机工程》 CAS CSCD 北大核心 2011年第4期40-42,共3页
提出一种基于Choquet模糊积分的深层网数据源选择方法。通过在1组关键字上的查询结果评价深层网数据源的质量,评价时不仅考虑到关键字间的权重,同时还考虑多个关键字之间存在的交互作用。实验结果表明,该方法有效,且对深层网数据源的评... 提出一种基于Choquet模糊积分的深层网数据源选择方法。通过在1组关键字上的查询结果评价深层网数据源的质量,评价时不仅考虑到关键字间的权重,同时还考虑多个关键字之间存在的交互作用。实验结果表明,该方法有效,且对深层网数据源的评价更接近真实。 展开更多
关键词 深层网 数据源选择 CHOQUET模糊积分
在线阅读 下载PDF
高效的数据源选择方式 被引量:1
14
作者 黄维篁 李国良 冯建华 《计算机科学与探索》 CSCD 2010年第10期890-898,共9页
随着关键词查询技术的飞速发展和互联网数据的迅猛增长,高效、准确的数据源选择变得十分有意义。提出了一种基于倒排列表的数据源选择方式,通过这种方式,能够在短时间内选择出相关度高的数据源,在这些数据源中执行检索,从而减少查询时间... 随着关键词查询技术的飞速发展和互联网数据的迅猛增长,高效、准确的数据源选择变得十分有意义。提出了一种基于倒排列表的数据源选择方式,通过这种方式,能够在短时间内选择出相关度高的数据源,在这些数据源中执行检索,从而减少查询时间,给用户带来了更好的查询体验。从实验结果可以看出,这种方法在实际系统(例如机票查询系统)中可以得到很好的效果。为了在大规模的数据集上高效地实现相关算法,将min-hash算法应用到相似度估计中来,减少了查询空间和时间的消耗。与传统算法的比较结果表明:min-hash算法能够得到较高的精确度,并且极大地节省了算法的运行时间。 展开更多
关键词 数据源选择 关键词查询 概要 min-hash算法
在线阅读 下载PDF
基于自适应隐反馈用户行为模型的数据源选择 被引量:1
15
作者 李鹏 阳小华 《计算机工程与设计》 CSCD 北大核心 2007年第12期2949-2950,2970,共3页
当前搜索引擎用户个性化的研究是搜索引擎优化的一个研究分支。当前检索模型的主要弊端就是搜索引擎用户提供的信息很少。目前主要借助于用户在和元搜索引擎交互的过程中提供的隐反馈信息对成员搜索引擎的数据源选择算法进行优化,利用... 当前搜索引擎用户个性化的研究是搜索引擎优化的一个研究分支。当前检索模型的主要弊端就是搜索引擎用户提供的信息很少。目前主要借助于用户在和元搜索引擎交互的过程中提供的隐反馈信息对成员搜索引擎的数据源选择算法进行优化,利用语言模型对用户检索行为建模,用户与元搜索引擎交互的过程中动态更新用户行为模型,自适应的满足不同检索动机的用户的信息需求。 展开更多
关键词 语言模型 元搜索 隐式相关反馈 数据源选择 用户个性化
在线阅读 下载PDF
面向Deep Web本地化数据集成的数据源两层选择模型 被引量:3
16
作者 鲜学丰 崔志明 +2 位作者 方立刚 顾才东 孙逊 《计算机工程》 CAS CSCD 北大核心 2017年第3期32-39,共8页
针对基于数据源质量选择方法的数据源在数据爬取时存在代价大、重复率高的问题,提出一种结合两层选择模型的Deep Web数据源选择和集成方法。该方法根据数据源本身质量和数据源的效用构建数据源的两层选择模型。给出基于该模型的递归增... 针对基于数据源质量选择方法的数据源在数据爬取时存在代价大、重复率高的问题,提出一种结合两层选择模型的Deep Web数据源选择和集成方法。该方法根据数据源本身质量和数据源的效用构建数据源的两层选择模型。给出基于该模型的递归增量数据源选择和集成策略,采用基于数据源质量的选择器过滤大量低质量Deep Web数据源,仅选择若干个高质量的数据源作为第2层选择器的输入。从候选数据源集合中递归地选择,使集成系统在获得尽可能多的高质量数据的同时,避免出现较高覆盖率的k个数据源,作为集成系统最终需要爬取和集成的数据源。实验结果表明,该方法结合两类选择器的优点,缩减了候选数据源的空间并保证集成数据的质量,同时避免了系统处理大量重复数据,有效降低Deep Web数据爬取与集成的代价。 展开更多
关键词 深层网页 数据集成 数据源选择 数据质量 效用模型 递归增量策略
在线阅读 下载PDF
基于多源数据的试飞遥测天线自动引导技术研究 被引量:2
17
作者 张国旺 袁炳南 李儒宽 《现代电子技术》 北大核心 2019年第11期19-23,共5页
为了进一步提升试飞遥测接收天线对目标飞机的跟踪质量,提出基于PCM、二次雷达、北斗短报文三种互为冗余数据同时引导遥测天线的空、天、地数据链路引导模式。并在此基础上设计动态数据最佳数据源选择算法,确保每一时刻只有一个较为理... 为了进一步提升试飞遥测接收天线对目标飞机的跟踪质量,提出基于PCM、二次雷达、北斗短报文三种互为冗余数据同时引导遥测天线的空、天、地数据链路引导模式。并在此基础上设计动态数据最佳数据源选择算法,确保每一时刻只有一个较为理想的数据引导遥测接收天线。地面试验证明,此研究对于进一步提升试飞遥测天线引导质量,保障试飞安全具有重要意义。 展开更多
关键词 遥测天线 天线引导 目标飞机跟踪 试飞 数据融合 数据源选择
在线阅读 下载PDF
智能主体在构件检索中的知识处理研究 被引量:1
18
作者 薛云皎 钱乐秋 +1 位作者 彭鑫 徐如志 《计算机工程与应用》 CSCD 北大核心 2006年第8期11-15,共5页
分布式构件库系统中,智能主体可通过协作联合完成用户的检索要求。对构件检索来说,确定哪些构件库拥有目标构件是一个需要首先解决的数据源选择问题。智能主体拥有自己的知识库,并且需要具备学习能力,能更新其知识库以保持检索结果的有... 分布式构件库系统中,智能主体可通过协作联合完成用户的检索要求。对构件检索来说,确定哪些构件库拥有目标构件是一个需要首先解决的数据源选择问题。智能主体拥有自己的知识库,并且需要具备学习能力,能更新其知识库以保持检索结果的有效性。文章讨论了可更新的主体,它可以将新的信息合并到给定的知识库中。我们提出了一种基于逻辑程序设计的知识表达和更新方法,该方法遵从声明式更新策略以执行更新任务。我们所提出的可更新主体具有清晰的语义,也能够以恰当的方式处理不一致的信息,从而较智能地解决了数据源选择问题。 展开更多
关键词 声明式逻辑 智能主体 分布式构件库 检索 数据源选择
在线阅读 下载PDF
应用激光雷达估测森林生物量的研究进展 被引量:3
19
作者 罗浩 舒清态 +3 位作者 席磊 黄金君 刘月玲 杨青 《绿色科技》 2022年第8期23-28,共6页
激光雷达相比传统被动遥感技术具有较强的穿透性,有利于森林垂直结构分布信息的获取,被广泛应用于林业研究中森林计测参数的估算。展望了激光雷达在森林生物量估测中的应用研究,主要以多源遥感数据协同估测森林生物量为研究思路,结合应... 激光雷达相比传统被动遥感技术具有较强的穿透性,有利于森林垂直结构分布信息的获取,被广泛应用于林业研究中森林计测参数的估算。展望了激光雷达在森林生物量估测中的应用研究,主要以多源遥感数据协同估测森林生物量为研究思路,结合应用多源数据探索复杂地向条件下对森林生物量的高精度估测,以及探索不同算法对生物量估测的精度影响和相应适用条件。研究了以森林生物量估测为重,从三种不同搭载平台出发,结合相关研究总结近年来地基激光雷达、机载激光雷达、星载激光雷达三种雷达数据在生物量估测中的研究进展,旨在总结研究成果,展望未来生物量估测研究中模型构建、生物量估测研究方向及数据源的选择,并以此提出了参考性意见。 展开更多
关键词 激光雷达 森林生物量估测 数据源选择 模型构建
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部