-
题名基于泛化中心聚类的不完备数据集填补方法
被引量:11
- 1
-
-
作者
王妍
王凤桐
王俊陆
宋宝燕
石展
-
机构
辽宁大学信息学院
东北大学计算机科学与工程学院
-
出处
《小型微型计算机系统》
CSCD
北大核心
2017年第9期2017-2021,共5页
-
基金
国家自然科学基金项目(61472169
61472072)资助
+2 种基金
国家科技支撑计划项目(2012BAF13B08)资助
国家"九七三"重点基础研究发展计划前期研究专项项目(2014CB360509)资助
辽宁省科学事业公益研究基金项目(2015003003)资助
-
文摘
随着信息技术、云计算、互联网以及社交网络等技术的不断发展,数据规模呈爆炸态势增长.在海量数据带来丰富信息的同时,如何对海量信息进行高效的预处理成为研究的热点.其中,对于缺失数据的处理就是数据预处理技术中一项重要的挑战.传统的缺失数据的填补方法大部分都只考虑不完备集中数据完全缺失情况下的填补,然而,在海量数据集中,由于人为或者机械等原因会对数据造成一定程度的损坏,有些数据会完全缺失,而有些数据只是部分缺失,传统的填补方法未对不同程度上损坏的数据进行划分,全部按照完全缺失数据进行填补分析,忽略了部分缺失数据对数据填补结果的影响.因此,提出一种基于泛化中心聚类的填补方法(GCF),采用泛化中心聚类思想对数据进行分簇,并对随机损坏数据与聚类结果一起进行缺失数据的填补,以提高填补后数据集的正确率.实验表明,针对不同缺失度的数据集样本,提出的GCF策略在填补正确率方面都具有良好的表现.
-
关键词
海量数据
不完备数据集
泛化中心聚类
数据损坏度
-
Keywords
mass data
incomplete data
generalized centroids clustering
stochastic damage
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-