-
题名基于泛化中心聚类的不完备数据集填补方法
被引量:11
- 1
-
-
作者
王妍
王凤桐
王俊陆
宋宝燕
石展
-
机构
辽宁大学信息学院
东北大学计算机科学与工程学院
-
出处
《小型微型计算机系统》
CSCD
北大核心
2017年第9期2017-2021,共5页
-
基金
国家自然科学基金项目(61472169
61472072)资助
+2 种基金
国家科技支撑计划项目(2012BAF13B08)资助
国家"九七三"重点基础研究发展计划前期研究专项项目(2014CB360509)资助
辽宁省科学事业公益研究基金项目(2015003003)资助
-
文摘
随着信息技术、云计算、互联网以及社交网络等技术的不断发展,数据规模呈爆炸态势增长.在海量数据带来丰富信息的同时,如何对海量信息进行高效的预处理成为研究的热点.其中,对于缺失数据的处理就是数据预处理技术中一项重要的挑战.传统的缺失数据的填补方法大部分都只考虑不完备集中数据完全缺失情况下的填补,然而,在海量数据集中,由于人为或者机械等原因会对数据造成一定程度的损坏,有些数据会完全缺失,而有些数据只是部分缺失,传统的填补方法未对不同程度上损坏的数据进行划分,全部按照完全缺失数据进行填补分析,忽略了部分缺失数据对数据填补结果的影响.因此,提出一种基于泛化中心聚类的填补方法(GCF),采用泛化中心聚类思想对数据进行分簇,并对随机损坏数据与聚类结果一起进行缺失数据的填补,以提高填补后数据集的正确率.实验表明,针对不同缺失度的数据集样本,提出的GCF策略在填补正确率方面都具有良好的表现.
-
关键词
海量数据
不完备数据集
泛化中心聚类
数据损坏度
-
Keywords
mass data
incomplete data
generalized centroids clustering
stochastic damage
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名一种从不完备数据集中发现规则的RS方法
- 2
-
-
作者
贺毅
蔡之华
毕进军
-
机构
中国地质大学计算机系
-
出处
《计算机工程》
CAS
CSCD
北大核心
2004年第8期162-163,共2页
-
基金
湖北省自然科学基金资助项目(2001ABB006)
-
文摘
Rough集(Rough sets, RS)理论被广泛应用于数据分类问题,该文用基于RS的方法从不完备数据集中产生确定和可能的规则集。提出了一种新的规则发现算法,可以同时从不完备数据集中产生规则和估计缺失值,并指出了进一步的研究方向。
-
关键词
不完备数据集
ROUGH集
知识发现
-
Keywords
Incomplete data set
Rough sets
Knowledge discovery
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名最小一致性覆盖在不完备规则集中的应用
- 3
-
-
作者
武妍
张春晖
-
机构
同济大学电子与信息工程学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2009年第1期147-148,152,共3页
-
文摘
将Martin Ester提出的最小一致性覆盖方法应用于不完备规则集的规则提取。首先对不完备数据分别进行两种方法的预处理,然后通过定义数据间的一致性来使规则提取的覆盖问题转化成划分问题。经过UCI上两个数据集的测试,证明了这种方法的有效性。
-
关键词
数据挖掘
不完备数据集
最小一致性覆盖
粗糙集
-
Keywords
data mining
incomplete data set
minimum consistent subset cover
rough set
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名基于加权的不完备非负矩阵分解算法
被引量:2
- 4
-
-
作者
杨志君
叶东毅
-
机构
福州大学数学与计算机科学学院
-
出处
《计算机应用》
CSCD
北大核心
2010年第5期1280-1283,1286,共5页
-
基金
国家自然科学基金资助项目(60805042)
-
文摘
非负矩阵分解(NMF)作为一种特征提取与数据降维的新方法,相较于一些传统算法,具有实现上的简便性,分解形式和分解结果上的可解释性等优点。但当样本矩阵不完备时,NMF无法对其进行直接分解。提出一种基于加权的不完备非负矩阵分解(NMFI)算法,该算法在处理不完备样本矩阵时,先采用随机修复的方法降低误差,再利用加权来控制各样本的权重,尽量削弱缺损数据对分解结果产生的干扰。此外,NMFI算法使用区域权重来进一步减少关键区域数据缺损对分解产生的影响。实验结果表明,NMFI算法能有效提取样本中残余数据的信息,减少缺损数据对分解结果的影响。
-
关键词
非负矩阵分解
不完备数据集
随机修复
加权
区域权重
-
Keywords
Nonnegative Matrix Factorization (NMF)
incomplete dataset
random repair
weighting
regional weight
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名面向K-近邻学习模型的高效数据清洗框架
被引量:5
- 5
-
-
作者
王婧怡
陈胤佳
袁野
陈辰
王国仁
-
机构
北京理工大学计算机学院
北京航空航天大学计算机学院
-
出处
《计算机科学与探索》
CSCD
北大核心
2023年第9期2241-2251,共11页
-
基金
国家自然科学基金(61932004,61732003,U2001211)。
-
文摘
现实世界中收集的数据集通常是含有缺失的,为了在不完备数据集上构建有效的机器学习模型,需要对数据集进行清洗。为了确保较好的清洗效果,通常需要人工参与,从而导致大量成本。确定不完备数据的清洗优先级将有助于减小清洗规模,节约人工成本。而计算不完备数据的清洗优先级应确定其对模型性能的贡献。夏普利值是目前流行的用来评估数据在机器学习模型中贡献的方法,因此可以借助夏普利值的概念计算不完备数据的清洗优先级。由于现有工作缺少对不完备数据夏普利值的研究,首先基于不完备数据集的指数级的所有可能世界定义了一种不完备数据夏普利值的表示方法;然后基于K-近邻分类模型的效用函数,提出了一种多项式时间内计算不完备数据在K-近邻分类模型中夏普利值的近似算法;最后提出了一种基于夏普利值的面向K-近邻分类模型的启发式数据清洗算法ShapClean。实验表明,该算法在清洗后模型分类准确率方面往往可以明显超过现有的针对机器学习模型的自动清洗算法,而且相比同样需要人工参与的数据清洗算法,该方法具有更高的清洗效率,可以有效节约人工成本,同时保证理想的模型准确度。
-
关键词
不完备数据集
夏普利值
K-近邻(KNN)
清洗优先级
数据清洗
-
Keywords
incomplete dataset
Shapley value
K-nearest neighbor(KNN)
cleaning priority
data cleaning
-
分类号
TP399
[自动化与计算机技术—计算机应用技术]
-
-
题名概率图模型学习技术研究进展
被引量:23
- 6
-
-
作者
刘建伟
黎海恩
罗雄麟
-
机构
中国石油大学(北京)自动化研究所
-
出处
《自动化学报》
EI
CSCD
北大核心
2014年第6期1025-1044,共20页
-
基金
国家重点基础研究发展计划(973计划)(2012CB720500)
国家自然科学基金(21006127)
中国石油大学(北京)基础学科研究基金(JCXK-2011-07)资助~~
-
文摘
概率图模型能有效处理不确定性推理,从样本数据中准确高效地学习概率图模型是其在实际应用中的关键问题.概率图模型的表示由参数和结构两部分组成,其学习算法也相应分为参数学习与结构学习.本文详细介绍了基于概率图模型网络的参数学习与结构学习算法,并根据数据集是否完备而分别讨论各种情况下的参数学习算法,还针对结构学习算法特点的不同把结构学习算法归纳为基于约束的学习、基于评分搜索的学习、混合学习、动态规划结构学习、模型平均结构学习和不完备数据集的结构学习.并总结了马尔科夫网络的参数学习与结构学习算法.最后指出了概率图模型学习的开放性问题以及进一步的研究方向.
-
关键词
概率图模型
贝叶斯网络
马尔科夫网络
参数学习
结构学习
不完备数据集
-
Keywords
Probabilistic graphical models, Bayesian network, Markov network, parameter learning, structure learning, incomplete dataset
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-