期刊文献+
共找到39篇文章
< 1 2 >
每页显示 20 50 100
一种基于CFDs规则的修复序列快速判定方法
1
作者 王欢 张云峰 张艳 《计算机科学》 CSCD 北大核心 2018年第3期311-316,共6页
数据一致性是大数据质量管理研究的一个重要内容。条件函数依赖(CFDs)是维护数据一致性的有效技术手段。然而,在修复过程中选择不同的CFDs修复顺序,会影响修复的准确性和效率。因此,如何选取一个正确且合理的修复顺序对数据修复至关重... 数据一致性是大数据质量管理研究的一个重要内容。条件函数依赖(CFDs)是维护数据一致性的有效技术手段。然而,在修复过程中选择不同的CFDs修复顺序,会影响修复的准确性和效率。因此,如何选取一个正确且合理的修复顺序对数据修复至关重要。针对该问题,提出一种基于CFDs规则的快速判定修复序列的计算方法。首先,设计了一种数据修复框架。然后,利用CFDs之间的关联关系,提出了修复序列图的概念,以用于CFDs修复顺序的计算。一方面,可以避免某些错误的或者不必要的数据修复,提高修复的准确性。另一方面,使用规则来判定修复顺序比使用实际数据进行判定更为快速。此外,在判定修复序列的过程中,对修复死锁进行了检测,保证了修复过程的可终止性。最后,通过在真实数据集上与现有方法进行对比实验,证明了所提方法具有更高的准确性和运行效率。 展开更多
关键词 数据一致性 条件函数依赖 修复序列
在线阅读 下载PDF
基于概率图模型结构学习的条件函数依赖发现
2
作者 江嗣嘉 谈子敬 《计算机应用与软件》 北大核心 2025年第2期280-286,共7页
条件函数依赖包含了传统的函数依赖,在数据质量管理和数据清洗研究领域有着广泛的应用。一般的方法会发现能够支持关系数据模型的所有条件函数依赖,而实际数据清洗过程中只需使用其中非常少的对错误检测有意义的部分,因此需要一个昂贵... 条件函数依赖包含了传统的函数依赖,在数据质量管理和数据清洗研究领域有着广泛的应用。一般的方法会发现能够支持关系数据模型的所有条件函数依赖,而实际数据清洗过程中只需使用其中非常少的对错误检测有意义的部分,因此需要一个昂贵的后处理步骤。将条件函数依赖发现问题视为一个借助概率图模型稀疏回归的结构学习过程,通过对脏数据集进行转换,再对转换后的数据集进行逆协方差估计并分解得到自回归矩阵,学习能够表征数据集分布情况的条件函数依赖。实验结果表明,该方法能够有效地发现少量的用于错误检测的条件函数依赖,与常用的条件函数依赖发现方法相比更加有效。 展开更多
关键词 数据质量 数据约束 条件函数依赖 结构学习
在线阅读 下载PDF
大数据上基于Hadoop的不一致数据检测与修复算法 被引量:13
3
作者 张安珍 门雪莹 +2 位作者 王宏志 李建中 高宏 《计算机科学与探索》 CSCD 北大核心 2015年第9期1044-1055,共12页
随着现代社会互联网的普及应用,产生的海量数据普遍存在质量问题。针对数据质量中不一致性问题进行研究,设计并实现了基于Hadoop并行平台的不一致数据检测与修复算法。采用数据依赖理论中的条件函数依赖,根据给定规则检测不一致数据集,... 随着现代社会互联网的普及应用,产生的海量数据普遍存在质量问题。针对数据质量中不一致性问题进行研究,设计并实现了基于Hadoop并行平台的不一致数据检测与修复算法。采用数据依赖理论中的条件函数依赖,根据给定规则检测不一致数据集,对这些不一致数据求解修复方案,使得修复结果满足数据一致性要求,并给出修复结果的确定性概率。最后通过实验证明了该算法较已有的单机算法有更好的修复效果,当约束规则较少的情况下,算法执行时间呈线性增长。 展开更多
关键词 数据一致性 MAP REDUCE 条件函数依赖 数据质量
在线阅读 下载PDF
基于函数依赖与条件约束的数据修复方法 被引量:16
4
作者 金澈清 刘辉平 周傲英 《软件学报》 EI CSCD 北大核心 2016年第7期1671-1684,共14页
随着经济与信息技术的发展,在许多应用中均产生大量数据.然而,受硬件设备、人工操作、多源数据集成等诸多因素的影响,在这些应用之中往往存在较为严重的数据质量问题,特别是不一致性问题,从而无法有效管理数据.因此,首要的任务就是开发... 随着经济与信息技术的发展,在许多应用中均产生大量数据.然而,受硬件设备、人工操作、多源数据集成等诸多因素的影响,在这些应用之中往往存在较为严重的数据质量问题,特别是不一致性问题,从而无法有效管理数据.因此,首要的任务就是开发新型数据清洗技术来提升数据质量,以支持后续的数据管理与分析.现有工作主要研究基于函数依赖的数据修复技术,即以函数依赖来描述数据一致性约束,通过变更数据库中部分元组的属性值(而非增加/删除元组)来使得整个数据库遵循函数依赖集合.从一致性约束描述的角度来看,函数依赖并非是唯一的表达方式,还存在其他表达方式,例如硬约束、数量约束、等值约束、非等值约束等.然而,随着一致性约束种类的增加,其处理难度也远比仅有函数依赖的场景要困难.考虑以函数依赖与其他一致性约束共同表述数据库的一致性约束,并在此基础上设计数据修复算法,从而提升数据质量.实验结果表明,所提方法的执行效率较高. 展开更多
关键词 数据质量 数据修复 函数依赖 条件约束 等价类
在线阅读 下载PDF
基于关联集分解的系统状态检修决策模型 被引量:17
5
作者 徐波 韩学山 +3 位作者 刘长银 侯艳权 姚越 牛志强 《电力系统自动化》 EI CSCD 北大核心 2015年第2期46-52,86,共8页
状态检修背景下,为有机统筹系统设备间的功能关联性,提出基于关联集分解的系统状态检修的数学模型。该模型在设备状态变化规律已知的前提下,从设备间功能关联出发,给出关联集的概念,研究周期内,以关联集为基本单元进行检修决策。然后,... 状态检修背景下,为有机统筹系统设备间的功能关联性,提出基于关联集分解的系统状态检修的数学模型。该模型在设备状态变化规律已知的前提下,从设备间功能关联出发,给出关联集的概念,研究周期内,以关联集为基本单元进行检修决策。然后,借鉴机会维修的思想,给出关联集加入检修计划以后状态概率的求解方法。从而在此基础上,对由设备检修时机变动而引起的设备个体损失和系统运行风险进行量化。最后,以二者之和最小为目标,计及系统状态检修的约束条件,建立系统状态检修的数学模型,针对该模型采用遗传算法求解。通过算例对所提出模型的可行性和有效性进行了验证。 展开更多
关键词 状态检修 功能关联 关联集分解 机会维修 设备个体损失 系统运行风险
在线阅读 下载PDF
基于关联规则的条件函数依赖发现及数据修复 被引量:5
6
作者 张春生 图雅 +2 位作者 翁慧 李艳 魏国利 《计算机应用研究》 CSCD 北大核心 2016年第2期384-387,共4页
大数据时代,数据的来源复杂,数据质量存在严重问题,有些数据不准确、缺失或存在错误。不正确的数据严重影响了数据挖掘的质量,给决策造成重大的影响。关于缺失数据的修复方法很多,其中条件函数依赖就是一个有效的方法,在如何发现条件函... 大数据时代,数据的来源复杂,数据质量存在严重问题,有些数据不准确、缺失或存在错误。不正确的数据严重影响了数据挖掘的质量,给决策造成重大的影响。关于缺失数据的修复方法很多,其中条件函数依赖就是一个有效的方法,在如何发现条件函数依赖方面已经有了很多研究成果。提出一种应用关联规则构建条件函数依赖的方法,由于关联规则通过数据挖掘得到,具有一定的隐蔽性,不是一般的方法能够发现,所以,由关联规则构建的条件函数依赖具有一定的应用价值,给出了构建方法,并通过实验证明其有效性。 展开更多
关键词 关联规则 条件函数依赖 一致性 数据修复 大数据 缺失数据
在线阅读 下载PDF
基于条件函数依赖的数据库一致性检测研究 被引量:9
7
作者 耿寅融 刘波 《计算机工程与应用》 CSCD 2012年第3期122-125,共4页
条件函数依赖是函数依赖在语义上的扩充,可以应用于数据清洗工作,在数据库一致性的修复上应用广泛。讨论了条件函数依赖的相关语义规则,重点研究了基于条件函数依赖对违反数据库一致性元组的检测工作,并引入置信度评价机制,对相关的检... 条件函数依赖是函数依赖在语义上的扩充,可以应用于数据清洗工作,在数据库一致性的修复上应用广泛。讨论了条件函数依赖的相关语义规则,重点研究了基于条件函数依赖对违反数据库一致性元组的检测工作,并引入置信度评价机制,对相关的检测规则进行了改进。改进后的检测方法在基于多个函数依赖的检测中显示出了优越性,使得检测工作更为精简,检测标准更加明确。 展开更多
关键词 条件函数依赖 函数依赖 结构化查询语言(SQL)
在线阅读 下载PDF
条件依赖理论及其应用展望 被引量:8
8
作者 胡艳丽 张维明 《计算机科学》 CSCD 北大核心 2009年第12期115-118,145,共5页
介绍了条件函数依赖理论及如何用于检测不一致数据。首先介绍了条件函数依赖的概念及其推理系统,以及如何通过依赖传播实现视图的规范化;阐述了条件函数依赖的一致性和蕴含判定问题,并在此基础上介绍了基于条件函数依赖检测关系数据库... 介绍了条件函数依赖理论及如何用于检测不一致数据。首先介绍了条件函数依赖的概念及其推理系统,以及如何通过依赖传播实现视图的规范化;阐述了条件函数依赖的一致性和蕴含判定问题,并在此基础上介绍了基于条件函数依赖检测关系数据库数据一致性的技术;最后讨论了条件函数依赖的扩展及应用。 展开更多
关键词 数据质量 数据清洗 条件函数依赖 推理规则 依赖传播 一致性判定 蕴含判定
在线阅读 下载PDF
一种扩展条件函数依赖的发现算法 被引量:5
9
作者 刘显敏 李建中 《计算机研究与发展》 EI CSCD 北大核心 2015年第1期130-140,共11页
扩展条件函数依赖(extended conditional functional dependency,eCFD)是一种描述数据一致性的语义规则,是条件函数依赖(conditional functional dependency,CFD)的扩展.相比于CFD,eCFD能够描述更多的模式从而表达更丰富的语义信息.然而... 扩展条件函数依赖(extended conditional functional dependency,eCFD)是一种描述数据一致性的语义规则,是条件函数依赖(conditional functional dependency,CFD)的扩展.相比于CFD,eCFD能够描述更多的模式从而表达更丰富的语义信息.然而,关注eCFD的研究工作并不多.从给定数据中发现eCFD规则是一个重要问题,据笔者所知,目前还没有这方面的工作.该问题的难点在于,给定数据中所有合法的eCFD规则之间存在不一致的情况,且包含大量冗余,而CFD和传统的函数依赖规则并没有这样的问题.为避免不一致,同时尽可能地消除冗余,定义了"强合法eCFD"和"近似无冗余eCFD".基于这些概念给出了eCFD发现问题的形式化定义,并给出了MeCFD算法.利用划分属性的方法,MeCFD首先生成所有的基本eCFD,然后,通过合并基本eCFD来构造"组合eCFD".使用先深序来搜索候选空间,使得MeCFD仅用常数的存储空间来维护数据划分,节省了大量的空间开销,有效的剪枝策略被用来改进MeCFD的性能.真实数据集上的实验结果显示出MeCFD良好的可扩展性以及剪枝策略和优化方法的有效性. 展开更多
关键词 扩展条件函数依赖 发现算法 搜索算法 剪枝策略 冗余
在线阅读 下载PDF
基于粗集和熵的多变量决策树的构造算法 被引量:5
10
作者 罗秋瑾 马锐 《计算机应用》 CSCD 北大核心 2007年第7期1708-1710,共3页
多变量决策树是一种有效用于分类的数据挖掘方法,构造的关键是根据属性之间的相关性选择合适的属性组合作为节点。针对传统方法中用相对核进行多变量检验中属性选择存在的不足,首先对每个节点包含的属性个数加以限制,然后由重新定义的... 多变量决策树是一种有效用于分类的数据挖掘方法,构造的关键是根据属性之间的相关性选择合适的属性组合作为节点。针对传统方法中用相对核进行多变量检验中属性选择存在的不足,首先对每个节点包含的属性个数加以限制,然后由重新定义的属性依赖度和基于条件熵的距离函数选择相关的属性组合作为节点,从而提出一种新的构造算法。实例说明,该算法不仅有效降低了树的高度,而且还兼顾了分类的可读性。 展开更多
关键词 粗糙集 多变量决策 属性依赖度 条件熵 距离函数
在线阅读 下载PDF
基于条件函数依赖的隐私保护模型 被引量:1
11
作者 陈伟鹤 陈霖 《计算机应用研究》 CSCD 北大核心 2012年第10期3838-3841,共4页
数据拥有者发布的数据中如果包含条件函数依赖会导致数据的隐私受到攻击,由条件函数依赖产生的属性间的关联会带来潜在的隐私泄露问题。针对现有的隐私保护方法均无法保护包含条件函数依赖的数据的隐私,形式化地定义了基于条件函数依赖... 数据拥有者发布的数据中如果包含条件函数依赖会导致数据的隐私受到攻击,由条件函数依赖产生的属性间的关联会带来潜在的隐私泄露问题。针对现有的隐私保护方法均无法保护包含条件函数依赖的数据的隐私,形式化地定义了基于条件函数依赖的隐私攻击,提出了隐私保护模型l-deduction来对包含条件函数依赖的数据进行隐私保护;并设计了相应的匿名算法来实现l-deduction模型。理论分析和实验结果表明,该方法既能保护包含条件函数依赖的数据的隐私,又具有较小的信息损失度。 展开更多
关键词 隐私保护 数据发布 条件函数依赖 l-deduction 信息损失
在线阅读 下载PDF
基于条件失效率函数的多维寿命分布刻画 被引量:2
12
作者 彭江艳 何平 《哈尔滨工程大学学报》 EI CAS CSCD 2003年第4期467-471,共5页
当在分析一个有若干部件组成的系统的联合分布时,系统的多维寿命分布不易把握,由于条件失效率函数有很好的直观意义且易获得,用条件失效率函数去刻画寿命分布是一种有效的新途径.通过所定义的3类条件失效率函数刻画三维寿命分布,并推广... 当在分析一个有若干部件组成的系统的联合分布时,系统的多维寿命分布不易把握,由于条件失效率函数有很好的直观意义且易获得,用条件失效率函数去刻画寿命分布是一种有效的新途径.通过所定义的3类条件失效率函数刻画三维寿命分布,并推广到刻画n维寿命分布.同时定义了3个相依部件组成的三维联合失效率函数并给出用这3类条件失效率函数刻画它的方法,进而推广到刻画n维的联合失效率函数. 展开更多
关键词 条件失效率函数 联合失效率函数 相依性 联合概率密度函数
在线阅读 下载PDF
基于内容相关的条件函数依赖的一致性清洗方法 被引量:1
13
作者 杜岳峰 申德荣 +1 位作者 张亮 于戈 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2016年第12期1683-1687,共5页
基于条件函数依赖提出了一种内容相关的条件函数依赖,并给出基于内容相关的条件函数依赖的一致性清洗方法.通过分析条件函数依赖之间的关系,将相关联的条件函数依赖合并组成内容相关的条件函数依赖.内容相关的条件函数依赖可以检测多条... 基于条件函数依赖提出了一种内容相关的条件函数依赖,并给出基于内容相关的条件函数依赖的一致性清洗方法.通过分析条件函数依赖之间的关系,将相关联的条件函数依赖合并组成内容相关的条件函数依赖.内容相关的条件函数依赖可以检测多条件值下的数据一致性问题并提供可用于一致性修复的参考值.同时,提出了一种一致性修复的代价模型.模型参考内容相关的条件函数依赖对应元组的实际情况进行修复,实现代价最优,同时保证数据一致性.通过在两组真实数据集上进行试验测试,证明提出的基于内容相关的条件函数依赖的一致性清洗方法能够准确地检测数据的一致性问题并加以修复. 展开更多
关键词 数据清洗 条件函数依赖 内容相关 数据一致性 修复代价模型
在线阅读 下载PDF
非函数依赖程序不变量动态检测技术研究 被引量:1
14
作者 刘树锟 陈继锋 阳小华 《计算机工程与应用》 CSCD 北大核心 2008年第35期158-162,共5页
讨论了程序不变量的内涵,研究并建立了程序不变量动态生成系统的理论模型。在该模型中,针对非函数依赖程序不变量动态生成理论、方法和技术进行了阐述。基于数据库的理论提出了一种新的非函数依赖程序不变量动态检测技术,针对各种常见... 讨论了程序不变量的内涵,研究并建立了程序不变量动态生成系统的理论模型。在该模型中,针对非函数依赖程序不变量动态生成理论、方法和技术进行了阐述。基于数据库的理论提出了一种新的非函数依赖程序不变量动态检测技术,针对各种常见非函数依赖程序不变量类型建立了一系列检测方法。此不变量检测技术通过数据库中提供的SQL条件查询功能,灵活地检测各种常见类型的非函数依赖程序不变量,并且可以根据用户的实际需要随时指定新的程序不变量查询条件。该方法和Daikon等现有的程序不变量检测工具检测方法比较具有明显的特色和优势:第一,基于关系数据库技术,具有良好的可扩展性;第二,使用SQL条件查询功能实现非函数依赖程序不变量检测,检测方法具有很好的灵活性。 展开更多
关键词 程序不变量 非函数依赖 动态检测 软件质量 条件查询
在线阅读 下载PDF
基于粗集和距离函数的决策树构造方法 被引量:2
15
作者 陈世联 罗秋瑾 《计算机工程与设计》 CSCD 北大核心 2008年第12期3191-3193,共3页
决策树是一种有效用于分类的数据挖掘方法。在决策树构造算法中,粗集理论的相对核已被应用于解决多变量检验中属性的选择问题。考虑到决策树技术和粗集的优缺点,将二者结合起来,先对每个结点包含的属性个数加以限制,再用属性相关度和DeM... 决策树是一种有效用于分类的数据挖掘方法。在决策树构造算法中,粗集理论的相对核已被应用于解决多变量检验中属性的选择问题。考虑到决策树技术和粗集的优缺点,将二者结合起来,先对每个结点包含的属性个数加以限制,再用属性相关度和DeMantaras距离函数选择相关的属性组合作为属性选择的标准,给出一种新的构造算法。该算法的优点是能有效降低树的高度,而且增强了分类规则的可读性。 展开更多
关键词 粗集 决策树 条件属性 属性依赖度 DeMantaras距离函数
在线阅读 下载PDF
基于相依函数型数据具有稳健性质的条件分位数核估计 被引量:2
16
作者 程伟 凌能祥 《合肥工业大学学报(自然科学版)》 CAS CSCD 北大核心 2010年第4期613-615,624,共4页
文章基于相依函数型数据,通过一种具有稳健性质的方法,研究了条件分位数核估计,避免了采用双核方法中存在的问题;并在一定的条件下建立了估计量的几乎完全收敛的速度,推广了现有文献的结果。
关键词 相依函数型数据 条件分位数估计 几乎完全收敛速度
在线阅读 下载PDF
相依函数型数据条件密度估计的渐近性质 被引量:1
17
作者 凌能祥 丁洁 《数学物理学报(A辑)》 CSCD 北大核心 2012年第3期547-556,共10页
利用Kolmogorov熵的方法研究了基于相依函数型数据条件密度函数的非参数估计,在一定的条件下建立了条件密度函数双重核估计量的几乎完全一致收敛速度及估计量的渐近分布,推广了现有文献中相关结果.
关键词 条件密度函数 相依函数型数据 几乎完全一致收敛速度 渐近正态性
在线阅读 下载PDF
条件函数依赖的增量计算
18
作者 刘波 周健昌 《系统工程与电子技术》 EI CSCD 北大核心 2015年第11期2640-2647,共8页
条件函数依赖是对传统函数依赖的扩展,它通过引入条件模式,使其语义比函数依赖更精确、表达能力更强。然而,条件函数依赖的计算需要消耗较多的时间,为了提高条件函数依赖挖掘的效率,研究了条件函数依赖增量维护方法。针对数据集增加、... 条件函数依赖是对传统函数依赖的扩展,它通过引入条件模式,使其语义比函数依赖更精确、表达能力更强。然而,条件函数依赖的计算需要消耗较多的时间,为了提高条件函数依赖挖掘的效率,研究了条件函数依赖增量维护方法。针对数据集增加、删除、修改3种情况分别分析了条件函数依赖集变化规律,提出了条件函数依赖的增量计算算法,从而能够在数据库变化情况下,高效、动态地维护条件函数依赖。同时,在理论上对算法中关键步骤的正确性进行了论证,并通过实验验证了算法的有效性。 展开更多
关键词 增量计算 条件函数依赖 数据挖掘
在线阅读 下载PDF
多维寿命分布模型
19
作者 彭江艳 袁玉波 《电子科技大学学报》 EI CAS CSCD 北大核心 2005年第5期706-708,共3页
针对两部件组成系统的二维寿命分布,提出了基于条件失效率函数刻画方法,这是一种刻画寿命分布有效的新途径。同时,推广了条件失效率函数,得到了n维寿命分布的刻画情况。
关键词 多维寿命分布 条件失效率函数 联合概率密度函数 相依性
在线阅读 下载PDF
最大依赖集在不一致数据检测中的应用
20
作者 戴超凡 李沛 王文倩 《计算机工程与应用》 CSCD 北大核心 2019年第15期89-95,共7页
针对条件函数依赖(CFDs)对不一致数据检测不完备问题,提出基于最大依赖集(MDS)的依赖提升算法(DLA),通过获取依赖中包含的隐性依赖(RCFDs)对数据集中的不一致数据进行检测。利用动态值域调整,设置数值变化的前移和后移指针,改进原算法... 针对条件函数依赖(CFDs)对不一致数据检测不完备问题,提出基于最大依赖集(MDS)的依赖提升算法(DLA),通过获取依赖中包含的隐性依赖(RCFDs)对数据集中的不一致数据进行检测。利用动态值域调整,设置数值变化的前移和后移指针,改进原算法的枚举过程,提高了算法对连续属性的适用性,给出动态值域调整和依赖提升算法的算法流程和伪代码,并对算法的收敛性和时间复杂度进行分析。最后通过对照实验,对比了依赖提升算法和基于CFDs的检测方法的检测精度和时间代价,验证了算法的有效性。 展开更多
关键词 条件函数依赖(cfds) 不一致数据 最大依赖集(MDS) 动态值域调整
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部