期刊文献+
共找到56篇文章
< 1 2 3 >
每页显示 20 50 100
基于相关性分析的不完整数据函数依赖挖掘方法
1
作者 尹诗宁 张安珍 夏秀峰 《计算机应用研究》 CSCD 北大核心 2024年第5期1368-1373,共6页
函数依赖(FD)挖掘方法通常专注于发现所有满足函数依赖语法特征的结果,在数据不完整的情况下常导致大量成立但无意义的FD。针对挖掘无效FD的问题,提出基于相关性分析的不完整数据FD挖掘方法。利用概率图模型构建具有缺失值属性的概率分... 函数依赖(FD)挖掘方法通常专注于发现所有满足函数依赖语法特征的结果,在数据不完整的情况下常导致大量成立但无意义的FD。针对挖掘无效FD的问题,提出基于相关性分析的不完整数据FD挖掘方法。利用概率图模型构建具有缺失值属性的概率分布,通过相关性分析捕捉属性之间的关联关系,避免枚举所有可能性,以挖掘具有统计学意义的FD。实验结果表明,该方法可以更准确地定位到有意义的FD,与最先进的FD发现方法相比,F_(1)分数平均提高1.5倍。 展开更多
关键词 函数依赖 相关性分析 不完整数据
在线阅读 下载PDF
用于不完整数据的选择性贝叶斯分类器 被引量:11
2
作者 陈景年 黄厚宽 +1 位作者 田凤占 付树军 《计算机研究与发展》 EI CSCD 北大核心 2007年第8期1324-1330,共7页
选择性分类器通过删除数据集中的无关属性和冗余属性可以有效地提高分类精度和效率.因此,一些选择性分类器应运而生.然而,由于处理不完整数据的复杂性,它们大都是针对完整数据的.由于各种原因,现实中的数据通常是不完整的并且包含许多... 选择性分类器通过删除数据集中的无关属性和冗余属性可以有效地提高分类精度和效率.因此,一些选择性分类器应运而生.然而,由于处理不完整数据的复杂性,它们大都是针对完整数据的.由于各种原因,现实中的数据通常是不完整的并且包含许多冗余属性或无关属性.如同完整数据的情形一样,不完整数据集中的冗余属性或无关属性也会使分类性能大幅下降.因此,对用于不完整数据的选择性分类器的研究是一项重要的研究课题.通过分析以往在分类过程中对不完整数据的处理方法,提出了两种用于不完整数据的选择性贝叶斯分类器:SRBC和CBSRBC.SRBC是基于一种鲁棒贝叶斯分类器构建的,而CBSRBC则是在SRBC基础上利用χ2统计量构建的.在12个标准的不完整数据集上的实验结果表明,这两种方法在大幅度减少属性数目的同时,能显著提高分类准确率和稳定性.从总体上来讲,CBSRBC在分类精度、运行效率等方面都优于SRBC算法,而SRBC需要预先指定的阈值要少一些. 展开更多
关键词 贝叶斯方法 分类 特征选择 不完整数据 X2统计量
在线阅读 下载PDF
基于压缩的海量不完整数据近似查询方法 被引量:7
3
作者 王妍 刘赓浩 +1 位作者 王俊陆 宋宝燕 《计算机研究与发展》 EI CSCD 北大核心 2016年第3期571-581,共11页
随着数据的爆炸式增加,不完整数据普遍存在,传统的数据修复方法对于海量数据处理代价过高,且不能彻底修复,在这些不完整的海量数据上进行满足给定需求的近似查询引起了学术界的关注.因此,提出一种基于压缩的海量不完整数据近似查询方法... 随着数据的爆炸式增加,不完整数据普遍存在,传统的数据修复方法对于海量数据处理代价过高,且不能彻底修复,在这些不完整的海量数据上进行满足给定需求的近似查询引起了学术界的关注.因此,提出一种基于压缩的海量不完整数据近似查询方法,该方法对属性值缺失字段进行标记,根据频繁查询条件对标记后的数据进行压缩,并建立对应索引;根据属性划分对索引文件再次压缩以节省存储空间,采用编码字典对索引压缩文件进行选择和投影操作,最终获得不完整数据的近似查询结果.实验表明,该方法能够快速定位不完整数据的压缩位置,提高了查询效率,节省了存储空间,并且保证了查询结果的完整性. 展开更多
关键词 不完整数据 近似查询 数据压缩 索引 编码字典
在线阅读 下载PDF
基于符号语义的不完整数据聚集查询处理算法 被引量:8
4
作者 张安珍 李建中 高宏 《软件学报》 EI CSCD 北大核心 2020年第2期406-420,共15页
研究了基于符号语义的不完整数据聚集查询处理问题.不完整数据又称为缺失数据,缺失值包括可填充的和不可填充的两种类型.现有的缺失值填充算法不能保证填充后查询结果的准确度,为此,给出了不完整数据聚集查询结果的区间估计.在符号语义... 研究了基于符号语义的不完整数据聚集查询处理问题.不完整数据又称为缺失数据,缺失值包括可填充的和不可填充的两种类型.现有的缺失值填充算法不能保证填充后查询结果的准确度,为此,给出了不完整数据聚集查询结果的区间估计.在符号语义中扩展了传统关系数据库模型,提出了一种通用不完整数据库模型.该模型可以处理可填充的和不可填充的两种类型缺失值.在该模型下,提出一种新的不完整数据聚集查询结果语义:可靠结果.可靠结果是真实查询结果的区间估计,可以保证真实查询结果有很大概率在该估计区间范围内.给出了线性时间求解SUM、COUNT和AVG查询可靠结果的方法.真实数据集和合成数据集上的扩展实验验证了所提方法的有效性. 展开更多
关键词 不完整数据 近似查询处理 数据修复 结果估计 数据可用性
在线阅读 下载PDF
一种基于不完整数据的朴素贝叶斯分类器 被引量:4
5
作者 陈景年 黄厚宽 +1 位作者 田凤占 乔珠峰 《计算机工程》 EI CAS CSCD 北大核心 2006年第17期86-88,共3页
贝叶斯网络因其对属性间因果关系的表达能力而成为处理不完整数据的强有力的工具。然而绝大多数的贝叶斯分类器都是基于完整数据的,并且在现实世界中数据往往是不完整的,因此利用不完整数据构建有效的贝叶斯分类器是一个重要而又具有挑... 贝叶斯网络因其对属性间因果关系的表达能力而成为处理不完整数据的强有力的工具。然而绝大多数的贝叶斯分类器都是基于完整数据的,并且在现实世界中数据往往是不完整的,因此利用不完整数据构建有效的贝叶斯分类器是一个重要而又具有挑战性的问题。通过分析著名的基于不完整数据的RBC分类器的不足,在BC(BoundandCollapse)方法和EM算法的基础上给出了一种基于不完整数据的分类器构建方法。实验结果表明了该算法的有效性。 展开更多
关键词 不完整数据 贝叶斯分类器 EM算法 BC办法
在线阅读 下载PDF
一种有效的不完整数据分类器 被引量:5
6
作者 陈景年 黄厚宽 +1 位作者 田凤占 邱桃荣 《计算机科学》 CSCD 北大核心 2008年第9期162-164,共3页
在模式识别、机器学习以及数据挖掘中,分类是一个基本而又重要的问题。虽有大量的分类器应运而生,但由于处理不完整数据的复杂性,它们大都是针对完整数据的。然而,由于各种原因,现实中的数据通常是不完整的。因此,对不完整数据分类器的... 在模式识别、机器学习以及数据挖掘中,分类是一个基本而又重要的问题。虽有大量的分类器应运而生,但由于处理不完整数据的复杂性,它们大都是针对完整数据的。然而,由于各种原因,现实中的数据通常是不完整的。因此,对不完整数据分类器的研究具有重要意义。通过分析以往在分类过程中对不完整数据的处理方法,提出了一种不完整数据分类器:DBCI。在DBCI的训练过程中,将缺失值的频数按比例地分配到其它观测值的频数中。因此,不完整数据集所包含的信息可以得到充分利用。在12个标准的不完整数据集上的实验结果表明,与分类效果显著的不完整数据分类器RBC相比,DBCI具有更高的分类效率和更稳定的性能,并且它的分类准确率可以与RBC相媲美。 展开更多
关键词 分类 贝叶斯方法 不完整数据
在线阅读 下载PDF
邻域信息修正的不完整数据多填充集成分类方法 被引量:7
7
作者 朱先远 严远亭 张燕平 《计算机工程与应用》 CSCD 北大核心 2023年第23期125-135,共11页
不完整数据集分类前需要对缺失值先填充。目前已有了一些经典的缺失值填充算法,如均值填充、K近邻填充等。它们各有优势,但这些算法对缺失值的估算易受到与缺失值相关性不大的其他数据干扰,影响缺失值填充效果,进而影响后续分类性能。... 不完整数据集分类前需要对缺失值先填充。目前已有了一些经典的缺失值填充算法,如均值填充、K近邻填充等。它们各有优势,但这些算法对缺失值的估算易受到与缺失值相关性不大的其他数据干扰,影响缺失值填充效果,进而影响后续分类性能。针对该问题,提出一种邻域信息修正不完整数据多填充集成分类方法。该方法通过嵌入修正填充模块来优化填充过程,利用纯度和邻域半径筛选出待修正填充的近邻数据样本,并根据这些近邻数据样本对缺失值进行修正填充,进一步提升填充精度。同时,融合了多种经典填充算法优势,利用多填充的数据多样性,通过引入集成学习提升分类精确度。实验结果表明,该方法对基准数据集上的缺失值填充效果、数据分类精确度都优于对比方法,同时在真实不完整数据集上也表现出更好的分类精确度。 展开更多
关键词 不完整数据分类 修正填充 邻域信息 集成学习
在线阅读 下载PDF
基于决策树的不完整数据的处理 被引量:6
8
作者 张靖 姚珍 唐雪飞 《电子科技大学学报》 EI CAS CSCD 北大核心 2007年第1期116-118,共3页
基于数据采集过程中常常存在一些不完整数据,以及不完整数据总是和样本空间中其他完整数据存在一定的相似性,提出了一种基于决策树的不完整数据的处理方法。在对不完整数据处理方法的比较、分析的基础上,采用一种有效的决策树方法对不... 基于数据采集过程中常常存在一些不完整数据,以及不完整数据总是和样本空间中其他完整数据存在一定的相似性,提出了一种基于决策树的不完整数据的处理方法。在对不完整数据处理方法的比较、分析的基础上,采用一种有效的决策树方法对不完整数据处理。实例验证证明该决策树方法在不完整数据处理方面有很好的效果。 展开更多
关键词 决策树 不完整数据 处理
在线阅读 下载PDF
海量不完整数据的核心数据选择问题的研究 被引量:6
9
作者 刘永楠 李建中 高宏 《计算机学报》 EI CSCD 北大核心 2018年第4期915-930,共16页
在大数据时代,越来越多的带有缺失值的数据需要处理,因而数据不完整成为一种常见的数据质量问题.不完整的数据给大数据的查询、挖掘和分析带来了困难.在某些情况下,数据中的很多缺失值是无法被确定的.只能根据用户的需求,在不完整的数... 在大数据时代,越来越多的带有缺失值的数据需要处理,因而数据不完整成为一种常见的数据质量问题.不完整的数据给大数据的查询、挖掘和分析带来了困难.在某些情况下,数据中的很多缺失值是无法被确定的.只能根据用户的需求,在不完整的数据上选择一部分用户感兴趣的核心数据集合,来提高不完整数据的可用性.完整度较高,规模较小,在用户感兴趣的属性上给出更多完整信息的核心数据集合,能够支持高效的查询处理,提高查询结果的准确性和完整性.该文形式化了核心数据选择问题,证明了这至少是一个NP-难问题.由于需要同时优化核心数据集合的完整度、集合的规模以及对于感兴趣属性的覆盖性,现有的基于集合覆盖问题的方法无法解决文中提出的问题.该文提出了一个采用贪心策略,具有理论保证的近似核心数据选择算法ACS.ACS首先判断当前的数据集合是否存在一个满足覆盖性要求的子集合.当这样的子集合存在时,ACS尽量选择完整的元组来组成核心数据集合,当使用完整元组无法满足覆盖性的要求时,ACS选择较少的不完整元组.ACS通过限制选择的次数来获得一个集合大小的上界是运行次数常数倍的子集合,并且保证了对于感兴趣的属性的覆盖比例.通过理论分析可知,ACS能够在近似线性的时间内,找到一个大小至多在给定的大小对数因子内的近似核心数据集合,其中被覆盖的感兴趣的属性的比例至少为(1-1/e),包含的不完整元组的个数至多为给定的核心数据集合的大小,其中e是自然对数的底数.通过在DBLP和NBA球员信息这两个真实数据集合上的实验,表明了所提出的算法ACS的有效性和高效性;通过在规模更大的合成数据上的实验,表明了ACS的良好的扩展性. 展开更多
关键词 数据质量 数据完整 不完整数据 核心数据选择 近似算法
在线阅读 下载PDF
运用SAS对不完整数据集进行多重填补——SAS 9中的多重填补及其统计分析过程(一) 被引量:17
10
作者 曹阳 张罗漫 《中国卫生统计》 CSCD 北大核心 2004年第1期56-58,63,共4页
关键词 SAS 不完整数据 多重填补 SAS9 多重填补 统计分析 实验研究
在线阅读 下载PDF
构造性覆盖下不完整数据修正填充方法 被引量:5
11
作者 严远亭 吴亚亚 +1 位作者 赵姝 张燕平 《智能系统学报》 CSCD 北大核心 2019年第6期1225-1232,共8页
不完整数据处理是数据挖掘、机器学习等领域中的重要问题,缺失值填充是处理不完整数据的主流方法。当前已有的缺失值填充方法大多运用统计学和机器学习领域的相关技术来分析原始数据中的剩余信息,从而得到较为合理的值来替代缺失部分。... 不完整数据处理是数据挖掘、机器学习等领域中的重要问题,缺失值填充是处理不完整数据的主流方法。当前已有的缺失值填充方法大多运用统计学和机器学习领域的相关技术来分析原始数据中的剩余信息,从而得到较为合理的值来替代缺失部分。缺失值填充大致可以分为单一填充和多重填充,这些填充方法在不同的场景下有着各自的优势。但是,很少有方法能进一步考虑样本空间分布中的邻域信息,并以此对缺失值的填充结果进行修正。鉴于此,本文提出了一种可广泛应用于诸多现有填充方法的框架用以提升现有方法的填充效果,该框架由预填充、空间邻域信息挖掘和修正填充三部分构成。本文对7种填充方法在8个UCI数据集上进行了实验,实验结果验证了本文所提框架的有效性和鲁棒性。 展开更多
关键词 不完整数据 缺失值填充 邻域信息 数据挖掘 机器学习 填充方法 单一填充 多重填充
在线阅读 下载PDF
利用增益率构建混合型选择性不完整数据分类器 被引量:2
12
作者 陈景年 黄厚宽 +1 位作者 徐力 伊传环 《北京交通大学学报》 CAS CSCD 北大核心 2009年第5期117-120,共4页
鉴于已有的绝大多数选择性分类算法主要用于完整数据,而现实中的数据通常是不完整的并且包含许多冗余属性或无关属性,本文在已有工作基础上利用信息增益率构建了一种用于不完整数据的混合型的选择性贝叶斯分类器:GBSD.在12个标准的不完... 鉴于已有的绝大多数选择性分类算法主要用于完整数据,而现实中的数据通常是不完整的并且包含许多冗余属性或无关属性,本文在已有工作基础上利用信息增益率构建了一种用于不完整数据的混合型的选择性贝叶斯分类器:GBSD.在12个标准的不完整数据集上的实验结果表明,GBSD不仅能大幅度减少属性数目,而且比已有工作更能有效改善分类准确率和效率. 展开更多
关键词 信息增益率 贝叶斯方法 分类 特征选择 不完整数据
在线阅读 下载PDF
一种基于特征选择的不完整数据分类方法 被引量:2
13
作者 陈景年 黄厚宽 +1 位作者 田凤占 薛小平 《计算机工程与应用》 CSCD 北大核心 2007年第31期23-24,38,共3页
特征选择(也称作属性选择)是简化数据表达形式,降低存储要求,提高分类精度和效率的重要途径。实际中遇到的大量的数据集包含着不完整数据。对于不完整数据,构造选择性分类器同样也可以降低存储要求,提高分类精度和效率。因此,对用于不... 特征选择(也称作属性选择)是简化数据表达形式,降低存储要求,提高分类精度和效率的重要途径。实际中遇到的大量的数据集包含着不完整数据。对于不完整数据,构造选择性分类器同样也可以降低存储要求,提高分类精度和效率。因此,对用于不完整数据的选择性分类器的研究是一项重要的研究课题。有鉴于此,提出了一种用于不完整数据的选择性贝叶斯分类器。在12个标准的不完整数据集上的实验结果表明,给出的选择性分类器不仅分类准确率显著高于非常有效地用于不完整数据的RBC分类器,而且分类性能更加稳定。 展开更多
关键词 特征选择 分类 贝叶斯方法 不完整数据
在线阅读 下载PDF
不完整数据库中的数据挖掘 被引量:3
14
作者 印鉴 周祥福 杨敏 《计算机工程》 EI CAS CSCD 北大核心 2006年第12期34-36,共3页
数据挖掘是从数据中提取有用知识的过程。在现实生活中,数据丢失的情况是很常见的,尤其是在商业数据库中,由于文件错误、纪录缺失、存储策略的改变等都会引起数据丢失而造成数据库的不完整。这种不完整性会影响关联规则的挖掘过程,因为... 数据挖掘是从数据中提取有用知识的过程。在现实生活中,数据丢失的情况是很常见的,尤其是在商业数据库中,由于文件错误、纪录缺失、存储策略的改变等都会引起数据丢失而造成数据库的不完整。这种不完整性会影响关联规则的挖掘过程,因为在有数据缺失时对规则的支持度以及可信度的计算都得不到确定值。把Apriori算法应用于不完整数据库,基于期望支持度和期望可信度,给出了一个挖掘不完整事务数据库中关联规则的算法。 展开更多
关键词 不完整数据 数据挖掘 关联规则 期望支持度 期望可信度
在线阅读 下载PDF
基于不完整数据的异常信号检测方法 被引量:2
15
作者 马捷 钟子发 史英春 《计算机工程》 CAS CSCD 北大核心 2011年第14期88-90,93,共4页
针对异常电磁信号检测中常见的输入数据存在参数缺失的问题,提出一种基于不完整数据的异常信号检测方法。该方法借鉴几何数学的思想,通过将缺失数据与正常数据进行比对,分析出缺失数据异常的可能性,给出该数据的异常概率计算方法。通过... 针对异常电磁信号检测中常见的输入数据存在参数缺失的问题,提出一种基于不完整数据的异常信号检测方法。该方法借鉴几何数学的思想,通过将缺失数据与正常数据进行比对,分析出缺失数据异常的可能性,给出该数据的异常概率计算方法。通过该异常概率能直接检测出部分异常信号,并给出剩余不完整数据的异常可能性的排序,从而有利于在资源有限时优先处理异常概率高的信号,达到处理资源优化配置的目的。实验结果表明,该方法能给出缺失数据点的异常概率。 展开更多
关键词 不完整数据 缺失数据处理 异常信号检测 异常概率
在线阅读 下载PDF
一种利用不完整数据检测交通异常的方法 被引量:4
16
作者 王玉玲 任永功 《计算机科学》 CSCD 北大核心 2016年第S1期425-429,共5页
城市化进程的加快带来了严重的交通问题,检测交通异常成为数据挖掘领域的热点之一。传统道路管理主要是应用视频监控,使得处理交通问题的效率受限。鉴于上述原因,提出了一种利用不完整数据检测交通异常的方法(Traffic Anomaly Detection... 城市化进程的加快带来了严重的交通问题,检测交通异常成为数据挖掘领域的热点之一。传统道路管理主要是应用视频监控,使得处理交通问题的效率受限。鉴于上述原因,提出了一种利用不完整数据检测交通异常的方法(Traffic Anomaly Detection,TAD)。首先,利用相关性聚类从手机数据中获取车辆密度信息,降低处理不完整数据的计算开销;然后,设计一个自适应无参数检测算法,根据手机呼叫量变化率捕捉车辆的分散式动态异常,以解决道路状况不确定性难题;最后,提出异常轨迹算法来追踪异常分布路线并预测影响范围,提高异常检测效率。实验结果表明,TAD方法在不同的实验环境下能够有效地检测交通异常,与现有算法相比,所提算法在有效性和伸缩性上效果更好。 展开更多
关键词 异常检测 不完整数据 手机数据 异常轨迹
在线阅读 下载PDF
基于分布不完整数据选择性分类器 被引量:1
17
作者 陈景年 黄厚宽 +1 位作者 杨莉萍 田凤占 《北京交通大学学报》 EI CAS CSCD 北大核心 2008年第2期26-29,共4页
通过删除数据集中的无关属性和冗余属性构建的选择性分类器可以有效地提高分类精度和效率.由于处理不完整数据的复杂性,已有的选择性分类器大都是针对完整数据的.然而,现实中的数据通常是不完整的并且包含许多冗余属性或无关属性.为解... 通过删除数据集中的无关属性和冗余属性构建的选择性分类器可以有效地提高分类精度和效率.由于处理不完整数据的复杂性,已有的选择性分类器大都是针对完整数据的.然而,现实中的数据通常是不完整的并且包含许多冗余属性或无关属性.为解决这一问题,在构建的不完整数据分类器DBNB的基础上给出了一种有效的选择性分类器:SDBNB.在12个标准的不完整数据集上的实验结果显示,SDBNB的分类准确率比分类效果较好的选择性不完整数据分类器SNB和SRBC平均高出0.69%和0.58%,而其标准离差比SNB和SRBC平均低0.11和0.05.这表明SDBNB不仅有较高的分类准确率,而且分类效果更稳定. 展开更多
关键词 数据分类 特征选择 贝叶斯方法 不完整数据
在线阅读 下载PDF
基于不完整数据分布参数的估计 被引量:1
18
作者 韩明 《机械强度》 CAS CSCD 北大核心 2003年第1期64-66,共3页
基于不完整数据 ,提出一种分布参数的估计方法———用Taylor级数和Marquardt的最小二乘法给出分布参数的估计。最后作为例子 ,结合Weibull分布、正态分布的数据进行计算 。
关键词 不完整数据 参数估计 TAYLOR级数 可靠性
在线阅读 下载PDF
基于改进K近邻算法的海量不完整数据近似查询系统 被引量:2
19
作者 徐宝磊 《现代电子技术》 2021年第15期177-181,共5页
由于现行海量不完整数据近似查询系统存在概率查询能力较差、查询时间过长、查询误差过大等问题,基于改进K近邻算法设计了一种新的海量不完整数据近似查询系统,并对系统的硬件和软件进行设计。通过信息源端、切换整合平台、查询端构建... 由于现行海量不完整数据近似查询系统存在概率查询能力较差、查询时间过长、查询误差过大等问题,基于改进K近邻算法设计了一种新的海量不完整数据近似查询系统,并对系统的硬件和软件进行设计。通过信息源端、切换整合平台、查询端构建整体架构,选用4路模拟量差分输入、8632C004的P1同两片TKB730的输入/输出连接、SJW000电路、82B250电路、CAN总线连接电路构成系统硬件结构。由数据采集、数据查询、数据判断实现软件查询,同时设定嵌入式仿真软件、用户审计控制软件完成信息查询。实验结果表明,基于改进K近邻算法的海量不完整数据近似查询系统能够有效提高概率查询能力,缩短查询时间,降低查询误差。 展开更多
关键词 近似查询系统 海量不完整数据 改进K近邻算法 数据采集 数据查询 不完整分析 近似分析
在线阅读 下载PDF
不完整数据立方的自底向上计算
20
作者 吴永英 袁芳 向隆刚 《计算机工程》 CAS CSCD 北大核心 2002年第12期108-110,共3页
基于BUC算法,该文提出PBUC算法用于不完整数据立方的自底向上计算。为了充分利用BUC算法的关键优化策略-共享划分,提出一个确定维顺序的新策略。一旦维顺序被确定,除了PBUC忽略不需计算的数据小方之外,PBUC的计算过程与BUC基本一致。
关键词 不完整数据立方 数据 BUC算法 PBUC算法 排序
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部