摘要
互k最近邻算法(mKnnc)是k最近邻分类算法(Knn)的一种改进算法,该算法用互k最近邻原则对训练样本以及k最近邻进行噪声消除,从而提高算法的分类效果。然而在利用互k最近邻原则进行噪声消除时,并没有将类别属性考虑进去,因此有可能把真实有效的数据当成噪声消除掉,从而影响分类效果。基于类别子空间距离加权的互k最近邻算法考虑到近邻的距离权重,既能消除冗余或无用属性对最近邻分类算法依赖的相似性度量的影响,又能较好地消除邻居中的噪声点。最后在UCI公共数据集上的实验结果验证了该算法的有效性。
Mknnc is an improved algorithm of the k nearest neighbours (KNN) ,which uses the mutual k nearest neigh- hours to eliminate anomalies in the training set and the k nearest neighbours. It has the better performance than KNN. However, the real and effective data may be eliminated as the noises so that influencing the efficiency of classification in the noise elimination stage without taking the class label into consideration. The mutual k nearest neighbours algorithm based on class subspaee and distance-weighted (SMwKnn) taking distance-weighted into account can eliminate the in- fluence of the redundant or useless attributes on the similarity measurement of the k nearest neighbours classification al- gorithm and eliminate the anomalies in the neighbours. The experimental results on the UCI public datasets verify the effectiveness of the proposed algorithm.
出处
《计算机科学》
CSCD
北大核心
2014年第2期166-169,共4页
Computer Science
基金
国家自然科学基金(61070062
61175123)
福建高校产学合作科技重大项目(2010 H6007)资助
关键词
类别子空间
互k最近邻
距离加权
子空间
Class subspaee, Mutual k nearest neighhour, Distance weighted, Subspace
作者简介
卢伟胜(1990-),男,硕士生,主要研究方向为数据挖掘与人工智能,E-mail:1wsbox@qq.com
郭躬德(1965-),男,博士,教授,主要研究方向为数据挖掘、机器学习;
严宣辉(1968-),男,副教授,主要研究方向为人工智能和网络安全;
陈黎飞(1972-),男,博士,副教授,主要研究方向为数据挖掘、模式识别。