期刊文献+

基于密度峰值聚类算法的自适应加权过采样算法 被引量:2

An adaptive weighted oversampling algorithm based on density peak clustering
在线阅读 下载PDF
导出
摘要 不平衡数据是监督学习中的一个挑战性问题。传统的分类器通常偏向多数类,忽略了少数类,而少数类样本往往包含很多重要信息,需要得到更多的关注。针对此问题,提出了一种基于密度峰值聚类算法的过采样技术(An Oversampling Technique based on Density Peak Clustering,DPCOTE)。DPCOTE的主要思想是:(1)利用k近邻算法去除多数类和少数类噪声样本;(2)基于密度峰值聚类算法(Density peaks clustering algorithm,DPC)中的2个重要因子,即样本局部密度和样本到局部密度较高的最近邻的距离,来为每个少数类样本分配采样权重;(3)对于DPC算法中涉及到的距离,使用马氏距离来度量,以消除样本特征量纲不一致问题。最后,在12个UCI数据集上进行了对比实验,用不同的指标评价分类结果,结果表明本文提出的算法在处理不平衡分类问题时优于其它过采样方法。 Imbalanced data is a challenge in supervised learning.Traditional classifiers usually favor the majority class and ignore the minority class,while the minority class samples often contain more important information and need more attention.The oversampling algorithm based on density peak clustering(DPCOTE)is proposed to deal with imbalanced classification problem.The main idea of DPCOTE is as follows:(1)The k-nearest neighbor algorithm is used to remove noise samples of majority class and minority class;(2)Two important factors in the density peaks clustering algorithm(DPC),namely the local density of the sample and the distance of the sample to the nearest neighbor with high local density,are used to assign sample weights for each minority class sample;(3)The distance involved in DPC algorithm is measured by Mahalanobis distance to eliminate the inconsistency of sample feature dimensions.Finally,comparative experiments conducted on 12 UCI datasets with different indexes show that the proposed algorithm is superior to other oversampling methods in dealing with the imbalanced data.
作者 穆伟蒙 宋燕 窦军 MU Weimeng;SONG Yan;DOU Jun(College of Science,University of Shanghai for Science and Technology,Shanghai 200093,China;School of Optical-Electrical and Computer Engineering,University of Shanghai for Science and Technology,Shanghai 200093,China)
出处 《智能计算机与应用》 2022年第6期46-53,共8页 Intelligent Computer and Applications
基金 国家自然科学基金(62073233,61873169)
关键词 不平衡数据 K近邻算法 密度峰值聚类算法 马氏距离 imbalanced data k-nearest neighbor algorithm density peak clustering algorithm Mahalanobis distance
作者简介 穆伟蒙(1995-),女,硕士研究生,主要研究方向:不平衡数据分类;通讯作者:宋燕(1979-),女,博士,教授,博士生导师,CCF高级会员(No.93073SM),主要研究方向:大数据算法、图像处理、预测控制,Email:sonya@usst.edu.cn;窦军(1994-),男,博士研究生,主要研究方向:不平衡数据的分类。
  • 相关文献

参考文献3

二级参考文献22

共引文献202

同被引文献29

引证文献2

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部