期刊文献+
共找到20篇文章
< 1 >
每页显示 20 50 100
基于概率图模型结构学习的条件函数依赖发现
1
作者 江嗣嘉 谈子敬 《计算机应用与软件》 北大核心 2025年第2期280-286,共7页
条件函数依赖包含了传统的函数依赖,在数据质量管理和数据清洗研究领域有着广泛的应用。一般的方法会发现能够支持关系数据模型的所有条件函数依赖,而实际数据清洗过程中只需使用其中非常少的对错误检测有意义的部分,因此需要一个昂贵... 条件函数依赖包含了传统的函数依赖,在数据质量管理和数据清洗研究领域有着广泛的应用。一般的方法会发现能够支持关系数据模型的所有条件函数依赖,而实际数据清洗过程中只需使用其中非常少的对错误检测有意义的部分,因此需要一个昂贵的后处理步骤。将条件函数依赖发现问题视为一个借助概率图模型稀疏回归的结构学习过程,通过对脏数据集进行转换,再对转换后的数据集进行逆协方差估计并分解得到自回归矩阵,学习能够表征数据集分布情况的条件函数依赖。实验结果表明,该方法能够有效地发现少量的用于错误检测的条件函数依赖,与常用的条件函数依赖发现方法相比更加有效。 展开更多
关键词 数据质量 数据约束 条件函数依赖 结构学习
在线阅读 下载PDF
基于关联规则的条件函数依赖发现及数据修复 被引量:5
2
作者 张春生 图雅 +2 位作者 翁慧 李艳 魏国利 《计算机应用研究》 CSCD 北大核心 2016年第2期384-387,共4页
大数据时代,数据的来源复杂,数据质量存在严重问题,有些数据不准确、缺失或存在错误。不正确的数据严重影响了数据挖掘的质量,给决策造成重大的影响。关于缺失数据的修复方法很多,其中条件函数依赖就是一个有效的方法,在如何发现条件函... 大数据时代,数据的来源复杂,数据质量存在严重问题,有些数据不准确、缺失或存在错误。不正确的数据严重影响了数据挖掘的质量,给决策造成重大的影响。关于缺失数据的修复方法很多,其中条件函数依赖就是一个有效的方法,在如何发现条件函数依赖方面已经有了很多研究成果。提出一种应用关联规则构建条件函数依赖的方法,由于关联规则通过数据挖掘得到,具有一定的隐蔽性,不是一般的方法能够发现,所以,由关联规则构建的条件函数依赖具有一定的应用价值,给出了构建方法,并通过实验证明其有效性。 展开更多
关键词 关联规则 条件函数依赖 一致性 数据修复 大数据 缺失数据
在线阅读 下载PDF
一种扩展条件函数依赖的发现算法 被引量:5
3
作者 刘显敏 李建中 《计算机研究与发展》 EI CSCD 北大核心 2015年第1期130-140,共11页
扩展条件函数依赖(extended conditional functional dependency,eCFD)是一种描述数据一致性的语义规则,是条件函数依赖(conditional functional dependency,CFD)的扩展.相比于CFD,eCFD能够描述更多的模式从而表达更丰富的语义信息.然而... 扩展条件函数依赖(extended conditional functional dependency,eCFD)是一种描述数据一致性的语义规则,是条件函数依赖(conditional functional dependency,CFD)的扩展.相比于CFD,eCFD能够描述更多的模式从而表达更丰富的语义信息.然而,关注eCFD的研究工作并不多.从给定数据中发现eCFD规则是一个重要问题,据笔者所知,目前还没有这方面的工作.该问题的难点在于,给定数据中所有合法的eCFD规则之间存在不一致的情况,且包含大量冗余,而CFD和传统的函数依赖规则并没有这样的问题.为避免不一致,同时尽可能地消除冗余,定义了"强合法eCFD"和"近似无冗余eCFD".基于这些概念给出了eCFD发现问题的形式化定义,并给出了MeCFD算法.利用划分属性的方法,MeCFD首先生成所有的基本eCFD,然后,通过合并基本eCFD来构造"组合eCFD".使用先深序来搜索候选空间,使得MeCFD仅用常数的存储空间来维护数据划分,节省了大量的空间开销,有效的剪枝策略被用来改进MeCFD的性能.真实数据集上的实验结果显示出MeCFD良好的可扩展性以及剪枝策略和优化方法的有效性. 展开更多
关键词 扩展条件函数依赖 发现算法 搜索算法 剪枝策略 冗余
在线阅读 下载PDF
基于条件函数依赖的数据库一致性检测研究 被引量:9
4
作者 耿寅融 刘波 《计算机工程与应用》 CSCD 2012年第3期122-125,共4页
条件函数依赖是函数依赖在语义上的扩充,可以应用于数据清洗工作,在数据库一致性的修复上应用广泛。讨论了条件函数依赖的相关语义规则,重点研究了基于条件函数依赖对违反数据库一致性元组的检测工作,并引入置信度评价机制,对相关的检... 条件函数依赖是函数依赖在语义上的扩充,可以应用于数据清洗工作,在数据库一致性的修复上应用广泛。讨论了条件函数依赖的相关语义规则,重点研究了基于条件函数依赖对违反数据库一致性元组的检测工作,并引入置信度评价机制,对相关的检测规则进行了改进。改进后的检测方法在基于多个函数依赖的检测中显示出了优越性,使得检测工作更为精简,检测标准更加明确。 展开更多
关键词 条件函数依赖 函数依赖 结构化查询语言(SQL)
在线阅读 下载PDF
基于内容相关的条件函数依赖的一致性清洗方法 被引量:1
5
作者 杜岳峰 申德荣 +1 位作者 张亮 于戈 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2016年第12期1683-1687,共5页
基于条件函数依赖提出了一种内容相关的条件函数依赖,并给出基于内容相关的条件函数依赖的一致性清洗方法.通过分析条件函数依赖之间的关系,将相关联的条件函数依赖合并组成内容相关的条件函数依赖.内容相关的条件函数依赖可以检测多条... 基于条件函数依赖提出了一种内容相关的条件函数依赖,并给出基于内容相关的条件函数依赖的一致性清洗方法.通过分析条件函数依赖之间的关系,将相关联的条件函数依赖合并组成内容相关的条件函数依赖.内容相关的条件函数依赖可以检测多条件值下的数据一致性问题并提供可用于一致性修复的参考值.同时,提出了一种一致性修复的代价模型.模型参考内容相关的条件函数依赖对应元组的实际情况进行修复,实现代价最优,同时保证数据一致性.通过在两组真实数据集上进行试验测试,证明提出的基于内容相关的条件函数依赖的一致性清洗方法能够准确地检测数据的一致性问题并加以修复. 展开更多
关键词 数据清洗 条件函数依赖 内容相关 数据一致性 修复代价模型
在线阅读 下载PDF
基于条件函数依赖的隐私保护模型 被引量:1
6
作者 陈伟鹤 陈霖 《计算机应用研究》 CSCD 北大核心 2012年第10期3838-3841,共4页
数据拥有者发布的数据中如果包含条件函数依赖会导致数据的隐私受到攻击,由条件函数依赖产生的属性间的关联会带来潜在的隐私泄露问题。针对现有的隐私保护方法均无法保护包含条件函数依赖的数据的隐私,形式化地定义了基于条件函数依赖... 数据拥有者发布的数据中如果包含条件函数依赖会导致数据的隐私受到攻击,由条件函数依赖产生的属性间的关联会带来潜在的隐私泄露问题。针对现有的隐私保护方法均无法保护包含条件函数依赖的数据的隐私,形式化地定义了基于条件函数依赖的隐私攻击,提出了隐私保护模型l-deduction来对包含条件函数依赖的数据进行隐私保护;并设计了相应的匿名算法来实现l-deduction模型。理论分析和实验结果表明,该方法既能保护包含条件函数依赖的数据的隐私,又具有较小的信息损失度。 展开更多
关键词 隐私保护 数据发布 条件函数依赖 l-deduction 信息损失
在线阅读 下载PDF
条件函数依赖的增量计算
7
作者 刘波 周健昌 《系统工程与电子技术》 EI CSCD 北大核心 2015年第11期2640-2647,共8页
条件函数依赖是对传统函数依赖的扩展,它通过引入条件模式,使其语义比函数依赖更精确、表达能力更强。然而,条件函数依赖的计算需要消耗较多的时间,为了提高条件函数依赖挖掘的效率,研究了条件函数依赖增量维护方法。针对数据集增加、... 条件函数依赖是对传统函数依赖的扩展,它通过引入条件模式,使其语义比函数依赖更精确、表达能力更强。然而,条件函数依赖的计算需要消耗较多的时间,为了提高条件函数依赖挖掘的效率,研究了条件函数依赖增量维护方法。针对数据集增加、删除、修改3种情况分别分析了条件函数依赖集变化规律,提出了条件函数依赖的增量计算算法,从而能够在数据库变化情况下,高效、动态地维护条件函数依赖。同时,在理论上对算法中关键步骤的正确性进行了论证,并通过实验验证了算法的有效性。 展开更多
关键词 增量计算 条件函数依赖 数据挖掘
在线阅读 下载PDF
一种增量发现条件函数依赖的算法 被引量:1
8
作者 李丁月 刘建勋 翟海军 《计算机工程与科学》 CSCD 北大核心 2013年第8期149-155,共7页
数据库频繁更新会导致满足条件的条件函数依赖(CFDs)发生变化,为获取准确的条件函数依赖,可以在更新后的数据库上重新执行发现过程,但这种方法会导致大量时间都浪费在对原始数据集的重复处理上。针对这种情况,在CFINDER算法基础上,提出... 数据库频繁更新会导致满足条件的条件函数依赖(CFDs)发生变化,为获取准确的条件函数依赖,可以在更新后的数据库上重新执行发现过程,但这种方法会导致大量时间都浪费在对原始数据集的重复处理上。针对这种情况,在CFINDER算法基础上,提出了一个增量发现条件函数依赖的算法CFUP。当数据库中增加新数据集时,CFUP在已有的CFDs的基础上,去掉不满足条件的CFDs,发现满足条件的新CFDs。实验表明,该算法能有效地进行条件函数依赖的增量式更新,与重新运行CFINDER算法相比,减少了原始数据集的扫描次数,提高了更新CFDs的效率。 展开更多
关键词 条件函数依赖 增量式算法 数据库
在线阅读 下载PDF
基于内容感知发现XML条件函数依赖 被引量:1
9
作者 郑婷 段富 《计算机应用研究》 CSCD 北大核心 2014年第12期3655-3658,3662,共5页
针对XML函数依赖(XFD)不能充分检测XML局部数据源语义上的数据不一致,借鉴关系数据库中条件函数依赖(CFD)的概念,并根据XML自身结构和约束特性,提出了基于内容感知发现(CAD)XML条件函数依赖(XCFD),CAD使用隐藏在数据值中的内容发现局部... 针对XML函数依赖(XFD)不能充分检测XML局部数据源语义上的数据不一致,借鉴关系数据库中条件函数依赖(CFD)的概念,并根据XML自身结构和约束特性,提出了基于内容感知发现(CAD)XML条件函数依赖(XCFD),CAD使用隐藏在数据值中的内容发现局部XML文档的XCFDs,检测异构数据源中数据一致性,提高数据的质量,并给出了详细的算法,同时引入修剪规则集减少搜索点阵和候选的XCFD的数量,提高算法的效率,使得XCFD无冗余、最小化。通过案例研究表明,基于CAD方法发现的XCFD比现有XFD发现更多的函数依赖和语义约束。 展开更多
关键词 可扩展标记语言 条件函数依赖 语义约束 内容感知 数据一致性
在线阅读 下载PDF
基于条件函数依赖的CTANE算法研究与应用 被引量:1
10
作者 毛燠锋 钱振兴 +1 位作者 万定生 朱跃龙 《计算机工程与应用》 CSCD 北大核心 2017年第11期85-89,共5页
针对复杂庞大有研究价值的数据,查找其中蕴含的条件函数依赖可以有效地利用这些有价值的数据。但现有的条件函数依赖搜索算法在面对庞大的数据时查找效率较慢,所以对现有的算法的改进意义重大。针对水利普查数据的特点对查找条件函数依... 针对复杂庞大有研究价值的数据,查找其中蕴含的条件函数依赖可以有效地利用这些有价值的数据。但现有的条件函数依赖搜索算法在面对庞大的数据时查找效率较慢,所以对现有的算法的改进意义重大。针对水利普查数据的特点对查找条件函数依赖的算法进行了改进,在原有算法的基础上加入了剪枝策略。实验和理论证明,改进后的算法相比传统的搜索算法在保证搜索质量的前提下加快了搜索速度,使得查找数据中的条件函数依赖更加快捷便利。 展开更多
关键词 条件函数依赖 搜索算法 水利普查 剪枝策略
在线阅读 下载PDF
条件依赖理论及其应用展望 被引量:8
11
作者 胡艳丽 张维明 《计算机科学》 CSCD 北大核心 2009年第12期115-118,145,共5页
介绍了条件函数依赖理论及如何用于检测不一致数据。首先介绍了条件函数依赖的概念及其推理系统,以及如何通过依赖传播实现视图的规范化;阐述了条件函数依赖的一致性和蕴含判定问题,并在此基础上介绍了基于条件函数依赖检测关系数据库... 介绍了条件函数依赖理论及如何用于检测不一致数据。首先介绍了条件函数依赖的概念及其推理系统,以及如何通过依赖传播实现视图的规范化;阐述了条件函数依赖的一致性和蕴含判定问题,并在此基础上介绍了基于条件函数依赖检测关系数据库数据一致性的技术;最后讨论了条件函数依赖的扩展及应用。 展开更多
关键词 数据质量 数据清洗 条件函数依赖 推理规则 依赖传播 一致性判定 蕴含判定
在线阅读 下载PDF
最大依赖集在不一致数据检测中的应用
12
作者 戴超凡 李沛 王文倩 《计算机工程与应用》 CSCD 北大核心 2019年第15期89-95,共7页
针对条件函数依赖(CFDs)对不一致数据检测不完备问题,提出基于最大依赖集(MDS)的依赖提升算法(DLA),通过获取依赖中包含的隐性依赖(RCFDs)对数据集中的不一致数据进行检测。利用动态值域调整,设置数值变化的前移和后移指针,改进原算法... 针对条件函数依赖(CFDs)对不一致数据检测不完备问题,提出基于最大依赖集(MDS)的依赖提升算法(DLA),通过获取依赖中包含的隐性依赖(RCFDs)对数据集中的不一致数据进行检测。利用动态值域调整,设置数值变化的前移和后移指针,改进原算法的枚举过程,提高了算法对连续属性的适用性,给出动态值域调整和依赖提升算法的算法流程和伪代码,并对算法的收敛性和时间复杂度进行分析。最后通过对照实验,对比了依赖提升算法和基于CFDs的检测方法的检测精度和时间代价,验证了算法的有效性。 展开更多
关键词 条件函数依赖(CFDs) 不一致数据 最大依赖集(MDS) 动态值域调整
在线阅读 下载PDF
基于依赖的数据一致性研究进展 被引量:3
13
作者 余敏 赵晓南 许志 《计算机应用》 CSCD 北大核心 2018年第A02期72-76,102,共6页
大数据时代数据源的多样性使得数据质量良莠不齐,数据中包含的语义不一致性给应用其进行决策的领域造成损失。对数据间语义联系的了解程度决定了错误检出和修复的效果,通常掌握的知识粒度越细错误检出和修复越有效。在关系数据库理论中... 大数据时代数据源的多样性使得数据质量良莠不齐,数据中包含的语义不一致性给应用其进行决策的领域造成损失。对数据间语义联系的了解程度决定了错误检出和修复的效果,通常掌握的知识粒度越细错误检出和修复越有效。在关系数据库理论中提出的函数依赖是描述数据间语义联系的规则,最初用于定义模式,最近被用于改善数据质量。为了弥补函数依赖在解决数据质量、描述语义知识时的局限性,研究人员又定义了条件函数依赖和微函数依赖。应用依赖改善数据一致性通常需要确定依赖集合、发现违反依赖的错误数据和修复错误三步,当前研究人员围绕着其中一两个步骤展开研究取得了一些成果。按依赖所描述语义逐渐细化的顺序,综述最新研究进展,指出在大数据时代尚缺乏兼顾错误检出率、修复效果和可扩展性的一致性问题解决方案,展望未来的研究方向。 展开更多
关键词 数据一致性 函数依赖 条件函数依赖 函数依赖
在线阅读 下载PDF
大数据上基于Hadoop的不一致数据检测与修复算法 被引量:13
14
作者 张安珍 门雪莹 +2 位作者 王宏志 李建中 高宏 《计算机科学与探索》 CSCD 北大核心 2015年第9期1044-1055,共12页
随着现代社会互联网的普及应用,产生的海量数据普遍存在质量问题。针对数据质量中不一致性问题进行研究,设计并实现了基于Hadoop并行平台的不一致数据检测与修复算法。采用数据依赖理论中的条件函数依赖,根据给定规则检测不一致数据集,... 随着现代社会互联网的普及应用,产生的海量数据普遍存在质量问题。针对数据质量中不一致性问题进行研究,设计并实现了基于Hadoop并行平台的不一致数据检测与修复算法。采用数据依赖理论中的条件函数依赖,根据给定规则检测不一致数据集,对这些不一致数据求解修复方案,使得修复结果满足数据一致性要求,并给出修复结果的确定性概率。最后通过实验证明了该算法较已有的单机算法有更好的修复效果,当约束规则较少的情况下,算法执行时间呈线性增长。 展开更多
关键词 数据一致性 MAP REDUCE 条件函数依赖 数据质量
在线阅读 下载PDF
语义知识库构建中的异常数据发现
15
作者 贺彬彬 邹磊 赵东岩 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2015年第2期195-202,共8页
为了提高RDF知识库的数据质量,提出RDF图数据的异常检测及其自动修复的方法。首先,原创性地定义了基于图的条件函数依赖(GCFD),能够将属性值和语义结构的依赖关系统一表示;然后,提出有效的算法框架以及优化策略,挖掘RDF数据中的GCFD,并... 为了提高RDF知识库的数据质量,提出RDF图数据的异常检测及其自动修复的方法。首先,原创性地定义了基于图的条件函数依赖(GCFD),能够将属性值和语义结构的依赖关系统一表示;然后,提出有效的算法框架以及优化策略,挖掘RDF数据中的GCFD,并给出异常数据的自动修复流程;最后,在真实的数据集上,通过大量实验确认解决方案的可行性和优越性。 展开更多
关键词 RDF数据质量 基于图的条件函数依赖 条件函数依赖 函数依赖
在线阅读 下载PDF
异构模式中关联数据的一致性规则发现方法 被引量:10
16
作者 杜岳峰 李晓光 宋宝燕 《计算机研究与发展》 EI CSCD 北大核心 2020年第9期1939-1948,共10页
数据一致性是数据质量管理的一项核心事务.规则约束作为一种抽象化、形式化的数据关系表达技术,可以有效地进行数据一致性管理.但是,在进行多源数据一致性管理的过程中,由于异源数据所属的关系模式不同,给一致性规则融合带来了挑战.另外... 数据一致性是数据质量管理的一项核心事务.规则约束作为一种抽象化、形式化的数据关系表达技术,可以有效地进行数据一致性管理.但是,在进行多源数据一致性管理的过程中,由于异源数据所属的关系模式不同,给一致性规则融合带来了挑战.另外,不论同源数据还是异源数据,数据之间是相互关联的,可以利用这种关系强化规则约束中语义含义的表达作用,发现数据中的潜在错误.具体地,条件包含依赖(conditional inclusion dependencies,CINDs)和内容相关的条件函数依赖(content-related conditional functional dependencies,CCFDs)可以分别用于异构模式的属性匹配和内容关联数据的一致性维护.基于此,对面向异构关系模式中关于关联数据的一致性规则发现问题进行研究.首先,针对使用CINDs进行异构模式中CCFDs规则发现的基本问题进行分析,对规则发现的可满足性、蕴含性和可验证性问题进行解释,它们分别满足NP-complete,coNP-complete,PTIME的复杂性判定问题.其次,为了对规则空间内的全部CCFDs进行发现,以CCFDs中的条件属性和变量属性为划分依据,提出了一种2级lattice的搜索结构.再次,设计了一种基于CINDs和CCFDs的异构关联数据一致性规则发现方法,使用CINDs对规则形式进行融合,而后通过增量发现方式查找一致性规则.最后,通过在2组真实数据进行实验,验证了方法的有效性和高效性. 展开更多
关键词 异构关系模式 关联数据 条件包含依赖 内容相关的条件函数依赖 规则发现
在线阅读 下载PDF
基于清洗规则和主数据的数据修复算法实现 被引量:5
17
作者 林印华 张春海 刘洁 《计算机科学》 CSCD 北大核心 2012年第S3期174-176,共3页
为了有效地清洗数据,此前已经提出了很多的完整性约束规则,例如条件函数依赖、条件包含依赖。这些约束规则虽然可以侦测出错误的存在,但是不能有效地指导用户纠正错误。实际上,基于约束规则的数据修复可能最终得不到确定性的修复结果,... 为了有效地清洗数据,此前已经提出了很多的完整性约束规则,例如条件函数依赖、条件包含依赖。这些约束规则虽然可以侦测出错误的存在,但是不能有效地指导用户纠正错误。实际上,基于约束规则的数据修复可能最终得不到确定性的修复结果,相反会引入新的错误,因此很大程度上降低了数据修复的效率。针对以上不足,提出了一种有效的数据清洗框架:首先基于Editing Rules和Master Data对数据进行清洗操作,最终得到确定性的修复;然后依据条件函数依赖来修复遗漏的错误,此种修复结果是不确定的,但是相比之下该框架不仅可以有效地保证数据修复的精确性与唯一性,而且提高了数据修复的效率。 展开更多
关键词 条件函数依赖 清洗规则 数据清洗 数据质量
在线阅读 下载PDF
基于分布式计算框架的不一致数据修复算法
18
作者 于祥祥 钟勇 +1 位作者 李振东 韩啸 《计算机应用》 CSCD 北大核心 2019年第S02期164-168,共5页
针对大数据环境下的数据不一致性问题,提出了基于MapReduce的不一致数据检测与修复算法。在传统函数依赖上引入语义约束的条件函数依赖(CFD),首先按照表达形式的不同把条件函数依赖分为常量条件函数依赖和变量条件函数依赖;然后对条件... 针对大数据环境下的数据不一致性问题,提出了基于MapReduce的不一致数据检测与修复算法。在传统函数依赖上引入语义约束的条件函数依赖(CFD),首先按照表达形式的不同把条件函数依赖分为常量条件函数依赖和变量条件函数依赖;然后对条件函数依赖集的一致性问题进行检测,确保条件函数依赖集之间不会产生冲突;接下来采用修改等价类的目标值解决条件函数依赖的违反;最后结合MapReduce不同阶段的运行特点,在map端和reduce端分别对违反常量条件函数依赖和变量条件函数依赖数据进行修复。实验结果表明在错误率相同的情况下,基于条件函数依赖的算法比传统算法的准确率更高、扩展性更好。 展开更多
关键词 大数据 数据质量 不一致 条件函数依赖 MAPREDUCE
在线阅读 下载PDF
两两比较模型的Why-not问题解释及排序
19
作者 祁丹蕊 宋韶旭 王建民 《软件学报》 EI CSCD 北大核心 2019年第3期620-647,共28页
由于数据缺失,数据库用户通常无法获得查询结果中的预期答案.它被称为"Why-not问题",即"为什么预期的元组不会出现在结果中".现有的方法通过列举可能的元组值来解释Why-not问题.枚举所给出解释的数量往往太大,无法... 由于数据缺失,数据库用户通常无法获得查询结果中的预期答案.它被称为"Why-not问题",即"为什么预期的元组不会出现在结果中".现有的方法通过列举可能的元组值来解释Why-not问题.枚举所给出解释的数量往往太大,无法由用户探索.完整性约束,如函数依赖,被用来排除不合格的解释.然而,许多属性在简化后解释中仅仅表示为变量,用户可能仍然无法理解.由于数据稀疏性,许多不合理的解释也会被推荐给用户.提出通过研究元组间两两比较关系,从而对Why-not问题的解释进行排序的方法.首先,重新定义为什么Why-not问题解释的形式没有变量,以便于用户理解;其次,对元组中的相等/不相等关系进行表示,提出在{0,1}表示的元组对的基础上学习统计模型,从而解决直接在原始数据上学习所带来的稀疏性问题,许多模型可以被用来推断概率,包括统计分布、分类和回归;最后,根据推断的概率对解释进行评价和排序.实验结果证明:利用统计、分类和回归方法计算两两关系概率分布的方法,可以为用户寻找Why-not问题的解释并返回较为高质量的解释. 展开更多
关键词 数据质量 数据清洗 条件函数依赖 缺失结果解释 解释排序
在线阅读 下载PDF
一种基于CFDs规则的修复序列快速判定方法
20
作者 王欢 张云峰 张艳 《计算机科学》 CSCD 北大核心 2018年第3期311-316,共6页
数据一致性是大数据质量管理研究的一个重要内容。条件函数依赖(CFDs)是维护数据一致性的有效技术手段。然而,在修复过程中选择不同的CFDs修复顺序,会影响修复的准确性和效率。因此,如何选取一个正确且合理的修复顺序对数据修复至关重... 数据一致性是大数据质量管理研究的一个重要内容。条件函数依赖(CFDs)是维护数据一致性的有效技术手段。然而,在修复过程中选择不同的CFDs修复顺序,会影响修复的准确性和效率。因此,如何选取一个正确且合理的修复顺序对数据修复至关重要。针对该问题,提出一种基于CFDs规则的快速判定修复序列的计算方法。首先,设计了一种数据修复框架。然后,利用CFDs之间的关联关系,提出了修复序列图的概念,以用于CFDs修复顺序的计算。一方面,可以避免某些错误的或者不必要的数据修复,提高修复的准确性。另一方面,使用规则来判定修复顺序比使用实际数据进行判定更为快速。此外,在判定修复序列的过程中,对修复死锁进行了检测,保证了修复过程的可终止性。最后,通过在真实数据集上与现有方法进行对比实验,证明了所提方法具有更高的准确性和运行效率。 展开更多
关键词 数据一致性 条件函数依赖 修复序列
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部