数据缺失在各个研究领域中普遍存在,缺失的数据会对计算的性能与结果产生严重的影响。为提高填补缺失数据的准确度,提出一种基于聚类分析的缺失数据最近邻填补算法。该算法在对数据聚类分析后根据类别分配权重,在MGNN(MahalanobisGray a...数据缺失在各个研究领域中普遍存在,缺失的数据会对计算的性能与结果产生严重的影响。为提高填补缺失数据的准确度,提出一种基于聚类分析的缺失数据最近邻填补算法。该算法在对数据聚类分析后根据类别分配权重,在MGNN(MahalanobisGray and Nearest Neighbor)算法的基础上改进了计算方法和填充值的计算方式。实验结果表明,该方法填补的准确度比传统KNN和MGNN算法要高。展开更多
文摘数据缺失在各个研究领域中普遍存在,缺失的数据会对计算的性能与结果产生严重的影响。为提高填补缺失数据的准确度,提出一种基于聚类分析的缺失数据最近邻填补算法。该算法在对数据聚类分析后根据类别分配权重,在MGNN(MahalanobisGray and Nearest Neighbor)算法的基础上改进了计算方法和填充值的计算方式。实验结果表明,该方法填补的准确度比传统KNN和MGNN算法要高。
文摘实际生活中,经常会遇到大规模数据的分类问题,传统k-近邻k-NN(k-Nearest Neighbor)分类方法需要遍历整个训练样本集,因此分类效率较低,无法处理具有大规模训练集的分类任务。针对这个问题,提出一种基于聚类的加速k-NN分类方法 C_kNN(Speeding k-NN Classification Method Based on Clustering)。该方法首先对训练样本进行聚类,得到初始聚类结果,并计算每个类的聚类中心,选择与聚类中心相似度最高的训练样本构成新的训练样本集,然后针对每个测试样本,计算新训练样本集中与其相似度最高的k个样本,并选择该k个近邻样本中最多的类别标签作为该测试样本的预测模式类别。实验结果表明,C_k-NN分类方法在保持较高分类精度的同时大幅度提高模型的分类效率。