期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
基于不完备集双聚类的缺失数据填补算法 被引量:12
1
作者 韩飞 沈镇林 《计算机工程》 CAS CSCD 北大核心 2016年第4期20-26,共7页
缺失数据填补是数据清洗领域的一个重要问题。由于绝大部分局部填补方法基于全部属性进行分类,未考虑对象属性之间的关联性,因此基于不完备集双聚类,提出一种缺失数据填补算法。该算法利用双聚类完美簇的平均平方残基为0及簇内的属性值... 缺失数据填补是数据清洗领域的一个重要问题。由于绝大部分局部填补方法基于全部属性进行分类,未考虑对象属性之间的关联性,因此基于不完备集双聚类,提出一种缺失数据填补算法。该算法利用双聚类完美簇的平均平方残基为0及簇内的属性值波动一致的特点,对缺失数据进行填补。通过数学分析,把寻找含有缺失值的最大完美簇问题转化为求解缺失对象与其他对象之间的最大相似属性集问题,在相同的最大相似属性集下,以缺失值的众数作为填补值。采用4组UCI数据集进行实验,结果表明,该算法相比ROUSTIDA算法平均提高了77.13%的填补值精确度。 展开更多
关键词 缺失数据填补 不完备集 双聚类 最大相似属性 数据清洗 完美簇
在线阅读 下载PDF
基于泛化中心聚类的不完备数据集填补方法 被引量:11
2
作者 王妍 王凤桐 +2 位作者 王俊陆 宋宝燕 石展 《小型微型计算机系统》 CSCD 北大核心 2017年第9期2017-2021,共5页
随着信息技术、云计算、互联网以及社交网络等技术的不断发展,数据规模呈爆炸态势增长.在海量数据带来丰富信息的同时,如何对海量信息进行高效的预处理成为研究的热点.其中,对于缺失数据的处理就是数据预处理技术中一项重要的挑战.传统... 随着信息技术、云计算、互联网以及社交网络等技术的不断发展,数据规模呈爆炸态势增长.在海量数据带来丰富信息的同时,如何对海量信息进行高效的预处理成为研究的热点.其中,对于缺失数据的处理就是数据预处理技术中一项重要的挑战.传统的缺失数据的填补方法大部分都只考虑不完备集中数据完全缺失情况下的填补,然而,在海量数据集中,由于人为或者机械等原因会对数据造成一定程度的损坏,有些数据会完全缺失,而有些数据只是部分缺失,传统的填补方法未对不同程度上损坏的数据进行划分,全部按照完全缺失数据进行填补分析,忽略了部分缺失数据对数据填补结果的影响.因此,提出一种基于泛化中心聚类的填补方法(GCF),采用泛化中心聚类思想对数据进行分簇,并对随机损坏数据与聚类结果一起进行缺失数据的填补,以提高填补后数据集的正确率.实验表明,针对不同缺失度的数据集样本,提出的GCF策略在填补正确率方面都具有良好的表现. 展开更多
关键词 海量数据 不完备数据 泛化中心聚类 数据损坏度
在线阅读 下载PDF
基于扩展粗糙集模型的集值不完备信息系统决策研究 被引量:1
3
作者 吴陈 杨习贝 +1 位作者 傅凡 杨静宇 《计算机工程与应用》 CSCD 北大核心 2005年第15期57-58,179,共3页
在客观世界中信息系统往往是不完备的。该文将粗糙集模型经过扩展后应用于属性值为集合值的不完备信息系统,给出了几种不同的上下近似集定义,着重建立和分析了一种不完备决策表,研究了对应的粗糙集模型扩展后的属性约简的方法,并根据约... 在客观世界中信息系统往往是不完备的。该文将粗糙集模型经过扩展后应用于属性值为集合值的不完备信息系统,给出了几种不同的上下近似集定义,着重建立和分析了一种不完备决策表,研究了对应的粗糙集模型扩展后的属性约简的方法,并根据约简生成了决策规则。 展开更多
关键词 不完备信息系统 粗糙 广义决策函数 知识约简
在线阅读 下载PDF
一种从不完备数据集中发现规则的RS方法
4
作者 贺毅 蔡之华 毕进军 《计算机工程》 CAS CSCD 北大核心 2004年第8期162-163,共2页
Rough集(Rough sets, RS)理论被广泛应用于数据分类问题,该文用基于RS的方法从不完备数据集中产生确定和可能的规则集。提出了一种新的规则发现算法,可以同时从不完备数据集中产生规则和估计缺失值,并指出了进一步的研究方向。
关键词 不完备数据 ROUGH 知识发现
在线阅读 下载PDF
最小一致性覆盖在不完备规则集中的应用
5
作者 武妍 张春晖 《计算机工程与应用》 CSCD 北大核心 2009年第1期147-148,152,共3页
将Martin Ester提出的最小一致性覆盖方法应用于不完备规则集的规则提取。首先对不完备数据分别进行两种方法的预处理,然后通过定义数据间的一致性来使规则提取的覆盖问题转化成划分问题。经过UCI上两个数据集的测试,证明了这种方法的... 将Martin Ester提出的最小一致性覆盖方法应用于不完备规则集的规则提取。首先对不完备数据分别进行两种方法的预处理,然后通过定义数据间的一致性来使规则提取的覆盖问题转化成划分问题。经过UCI上两个数据集的测试,证明了这种方法的有效性。 展开更多
关键词 数据挖掘 不完备数据 最小一致性覆盖 粗糙
在线阅读 下载PDF
不完备软区分矩阵及其在决策问题中的应用 被引量:2
6
作者 杨勇 宋娟萍 《计算机工程与科学》 CSCD 北大核心 2015年第8期1599-1606,共8页
基于软区分矩阵,首先提出了不完备软区分矩阵的概念,讨论了不完备软区分矩阵的相关性质;接着提出了基于不完备软区分矩阵的决策算法。该算法可以通过扫描一次不完备软区分矩阵就能得到所有对象的序关系,从而可得最优选择对象和次优对象... 基于软区分矩阵,首先提出了不完备软区分矩阵的概念,讨论了不完备软区分矩阵的相关性质;接着提出了基于不完备软区分矩阵的决策算法。该算法可以通过扫描一次不完备软区分矩阵就能得到所有对象的序关系,从而可得最优选择对象和次优对象。最后,通过实例来说明该方法在决策问题中的正确性和有效性。 展开更多
关键词 不完备 软区分矩阵 不完备软区分矩阵 决策 选择值
在线阅读 下载PDF
基于加权的不完备非负矩阵分解算法 被引量:2
7
作者 杨志君 叶东毅 《计算机应用》 CSCD 北大核心 2010年第5期1280-1283,1286,共5页
非负矩阵分解(NMF)作为一种特征提取与数据降维的新方法,相较于一些传统算法,具有实现上的简便性,分解形式和分解结果上的可解释性等优点。但当样本矩阵不完备时,NMF无法对其进行直接分解。提出一种基于加权的不完备非负矩阵分解(NMFI)... 非负矩阵分解(NMF)作为一种特征提取与数据降维的新方法,相较于一些传统算法,具有实现上的简便性,分解形式和分解结果上的可解释性等优点。但当样本矩阵不完备时,NMF无法对其进行直接分解。提出一种基于加权的不完备非负矩阵分解(NMFI)算法,该算法在处理不完备样本矩阵时,先采用随机修复的方法降低误差,再利用加权来控制各样本的权重,尽量削弱缺损数据对分解结果产生的干扰。此外,NMFI算法使用区域权重来进一步减少关键区域数据缺损对分解产生的影响。实验结果表明,NMFI算法能有效提取样本中残余数据的信息,减少缺损数据对分解结果的影响。 展开更多
关键词 非负矩阵分解 不完备数据 随机修复 加权 区域权重
在线阅读 下载PDF
概率图模型学习技术研究进展 被引量:23
8
作者 刘建伟 黎海恩 罗雄麟 《自动化学报》 EI CSCD 北大核心 2014年第6期1025-1044,共20页
概率图模型能有效处理不确定性推理,从样本数据中准确高效地学习概率图模型是其在实际应用中的关键问题.概率图模型的表示由参数和结构两部分组成,其学习算法也相应分为参数学习与结构学习.本文详细介绍了基于概率图模型网络的参数学习... 概率图模型能有效处理不确定性推理,从样本数据中准确高效地学习概率图模型是其在实际应用中的关键问题.概率图模型的表示由参数和结构两部分组成,其学习算法也相应分为参数学习与结构学习.本文详细介绍了基于概率图模型网络的参数学习与结构学习算法,并根据数据集是否完备而分别讨论各种情况下的参数学习算法,还针对结构学习算法特点的不同把结构学习算法归纳为基于约束的学习、基于评分搜索的学习、混合学习、动态规划结构学习、模型平均结构学习和不完备数据集的结构学习.并总结了马尔科夫网络的参数学习与结构学习算法.最后指出了概率图模型学习的开放性问题以及进一步的研究方向. 展开更多
关键词 概率图模型 贝叶斯网络 马尔科夫网络 参数学习 结构学习 不完备数据
在线阅读 下载PDF
面向K-近邻学习模型的高效数据清洗框架 被引量:5
9
作者 王婧怡 陈胤佳 +2 位作者 袁野 陈辰 王国仁 《计算机科学与探索》 CSCD 北大核心 2023年第9期2241-2251,共11页
现实世界中收集的数据集通常是含有缺失的,为了在不完备数据集上构建有效的机器学习模型,需要对数据集进行清洗。为了确保较好的清洗效果,通常需要人工参与,从而导致大量成本。确定不完备数据的清洗优先级将有助于减小清洗规模,节约人... 现实世界中收集的数据集通常是含有缺失的,为了在不完备数据集上构建有效的机器学习模型,需要对数据集进行清洗。为了确保较好的清洗效果,通常需要人工参与,从而导致大量成本。确定不完备数据的清洗优先级将有助于减小清洗规模,节约人工成本。而计算不完备数据的清洗优先级应确定其对模型性能的贡献。夏普利值是目前流行的用来评估数据在机器学习模型中贡献的方法,因此可以借助夏普利值的概念计算不完备数据的清洗优先级。由于现有工作缺少对不完备数据夏普利值的研究,首先基于不完备数据集的指数级的所有可能世界定义了一种不完备数据夏普利值的表示方法;然后基于K-近邻分类模型的效用函数,提出了一种多项式时间内计算不完备数据在K-近邻分类模型中夏普利值的近似算法;最后提出了一种基于夏普利值的面向K-近邻分类模型的启发式数据清洗算法ShapClean。实验表明,该算法在清洗后模型分类准确率方面往往可以明显超过现有的针对机器学习模型的自动清洗算法,而且相比同样需要人工参与的数据清洗算法,该方法具有更高的清洗效率,可以有效节约人工成本,同时保证理想的模型准确度。 展开更多
关键词 不完备数据 夏普利值 K-近邻(KNN) 清洗优先级 数据清洗
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部