期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于真值发现的冲突数据源质量评价算法 被引量:2
1
作者 王继奎 李少波 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2015年第2期303-308,共6页
针对目前冲突数据源的质量评价模型仅考虑准确度与精确度2个方面,没有考虑数据源提供错误描述与提供空值对数据源质量会产生不同影响的情况,通过将数据源提供的错误描述定义为主动错误,并将数据源没有为实体提供描述定义为被动错误,从... 针对目前冲突数据源的质量评价模型仅考虑准确度与精确度2个方面,没有考虑数据源提供错误描述与提供空值对数据源质量会产生不同影响的情况,通过将数据源提供的错误描述定义为主动错误,并将数据源没有为实体提供描述定义为被动错误,从主动错误、被动错误2个方面建立数据源质量模型.该模型以敏感度、明确度代替了准确度与精确度;为了处理多真值问题,预先合并数据源对实体的描述,并定义了合并描述的包含关系及包含度计算模型;在包含度计算模型的基础上,提出了基于描述包含度的冲突数据源质量评价算法(TFDQ).在通用数据集Books-Authors上的实验表明,与Vote算法、TruthFinder算法相比,TFDQ算法实验结果更接近真实情况. 展开更多
关键词 数据集成 数据源质量 真值发现
在线阅读 下载PDF
面向Deep Web本地化数据集成的数据源两层选择模型 被引量:3
2
作者 鲜学丰 崔志明 +2 位作者 方立刚 顾才东 孙逊 《计算机工程》 CAS CSCD 北大核心 2017年第3期32-39,共8页
针对基于数据源质量选择方法的数据源在数据爬取时存在代价大、重复率高的问题,提出一种结合两层选择模型的Deep Web数据源选择和集成方法。该方法根据数据源本身质量和数据源的效用构建数据源的两层选择模型。给出基于该模型的递归增... 针对基于数据源质量选择方法的数据源在数据爬取时存在代价大、重复率高的问题,提出一种结合两层选择模型的Deep Web数据源选择和集成方法。该方法根据数据源本身质量和数据源的效用构建数据源的两层选择模型。给出基于该模型的递归增量数据源选择和集成策略,采用基于数据源质量的选择器过滤大量低质量Deep Web数据源,仅选择若干个高质量的数据源作为第2层选择器的输入。从候选数据源集合中递归地选择,使集成系统在获得尽可能多的高质量数据的同时,避免出现较高覆盖率的k个数据源,作为集成系统最终需要爬取和集成的数据源。实验结果表明,该方法结合两类选择器的优点,缩减了候选数据源的空间并保证集成数据的质量,同时避免了系统处理大量重复数据,有效降低Deep Web数据爬取与集成的代价。 展开更多
关键词 深层网页 数据集成 数据选择 数据源质量 效用模型 递归增量策略
在线阅读 下载PDF
Web大数据系统数据源选择
3
作者 刘正涛 王建东 《计算机科学与探索》 CSCD 北大核心 2018年第3期360-369,共10页
如何从数量众多的Web数据源集合中选择数量合适的数据源,使得在满足特定查询需求的前提下尽可能地减少访问数据源的数量,是Web大数据系统集成中的关键问题之一。提出了一个两阶段数据源选择方案:第一阶段通过各个数据源模式与中间模式... 如何从数量众多的Web数据源集合中选择数量合适的数据源,使得在满足特定查询需求的前提下尽可能地减少访问数据源的数量,是Web大数据系统集成中的关键问题之一。提出了一个两阶段数据源选择方案:第一阶段通过各个数据源模式与中间模式的相似度选择与查询相关度高的数据源,通过计算依赖数据源的质量来选取质量较好的数据源;第二阶段基于最大熵理论计算数据源之间的重复率,设计实现了一个查询最小代价模型动态选择数据源算法。最后在实验平台上对算法进行了评估,实验表明该算法具有较高的效率与扩展性。 展开更多
关键词 WEB 数据 数据选择 数据源质量 数据依赖
在线阅读 下载PDF
城镇地籍数据库建设及发展趋向 被引量:10
4
作者 陈红艳 于晓峰 +1 位作者 李晓燕 李可华 《测绘通报》 CSCD 北大核心 2010年第7期65-67,74,共4页
在全国第二次土地调查工作的背景下,以城镇地籍数据库的建设实践为基础,阐述地籍数据库建库的一般方法、步骤,并对软件选取、地籍数据组织、质量控制等关键问题进行探讨,在此基础上对城镇地籍数据库的发展趋向进行浅述。
关键词 地籍数据 GIS 地籍管理信息系统 时空地籍数据 质量数据地籍数据
在线阅读 下载PDF
MTruths:Web信息多真值发现方法 被引量:9
5
作者 马如霞 孟小峰 +1 位作者 王璐 史英杰 《计算机研究与发展》 EI CSCD 北大核心 2016年第12期2858-2866,共9页
Web已成为一个浩瀚的信息海洋,其信息分散在不同的数据源中.不同数据源常常为同一对象实体提供冲突的属性值.如何从这些冲突属性值中找到真值被称为真值发现问题.根据属性值数量可将对象属性分为单值属性和多值属性,现有的多数真值发现... Web已成为一个浩瀚的信息海洋,其信息分散在不同的数据源中.不同数据源常常为同一对象实体提供冲突的属性值.如何从这些冲突属性值中找到真值被称为真值发现问题.根据属性值数量可将对象属性分为单值属性和多值属性,现有的多数真值发现算法对单值属性的真值发现比较有效.针对多值属性的真值发现问题,提出了一个多真值发现方法 MTruths,该方法将多真值发现问题转化为一个最优化问题,其目标是:各对象的真值与各数据源提供的观察值之间的相似性加权和达到最大.对象真值求解过程中,提出2种方法求真值列表的最优解:基于枚举的方法和贪心算法.与已有方法不同的是MTruths可以直接得到对象的多个真值.最后,通过图书和电影2个真实数据集上的实验表明,MTruths的2种实现方法的准确性以及贪心算法的效率优于现有真值发现方法. 展开更多
关键词 真值发现 数据冲突 单值属性 多值属性 数据源质量
在线阅读 下载PDF
基于多特征融合的无监督真值发现方法 被引量:2
6
作者 陈华凤 董永权 +1 位作者 杨昊霖 张国玺 《数据采集与处理》 CSCD 北大核心 2023年第3期629-642,共14页
真值发现是数据集成领域具有挑战性的研究热点之一。传统的方法利用数据源与观测值之间的交互关系推断真值,缺乏足够的特征信息;基于深度学习的方法可以有效地进行特征抽取,但其性能依赖于大量手工标注,而在实际应用中很难获取到大量高... 真值发现是数据集成领域具有挑战性的研究热点之一。传统的方法利用数据源与观测值之间的交互关系推断真值,缺乏足够的特征信息;基于深度学习的方法可以有效地进行特征抽取,但其性能依赖于大量手工标注,而在实际应用中很难获取到大量高质量的真值标签。为克服以上问题,本文提出一种基于多特征融合的无监督真值发现方法(Unsupervised truth discovery method based on multi-feature fusion,MFOTD)。首先,利用集成学习无监督标注“真值”标签;然后,分别使用预训练模型Bert和独热编码获取观测值的语义特征和交互特征;最后,融合观测值多种特征并使用其“真值”标签构建初始训练集,通过自训练方式训练真值预测模型。在两个真实数据集上的实验结果表明,与已有方法相比,本文所提出的方法具有更高的真值发现准确性。 展开更多
关键词 WEB数据集成 半监督学习 数据清洗 真值发现 数据源质量
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部