摘要
密度峰聚类(DPC)算法采用点的密度与距离属性对数据进行划分。该算法对大多数数据集能获得较好的聚类结果。然而,对于存在交叉、重叠情况的数据集,DPC算法的最近邻居分配方法将造成较大误差。针对这一缺陷,本文考虑到数据点的大部分邻居属于相同的簇,提出一种多邻居投票的聚类方法。该方法采取多个邻居的投票结果来决定未知点的归属。数值实验表明,基于投票法的密度峰聚类算法在面对点分布存在交叉、重叠情况的数据集时优于DPC算法。
Density Peak Clustering(DPC)divides the data according to the density and distance attributes of points,which can achieve better clustering results for most data sets.However,the nearest neighbor allocation method of DPC will cause large errors for the data sets with overlapping.Aiming at this defect,a multi neighbor voting clustering method is proposed,which uses the voting results of multiple neighbors to determine the ownership of unknown points.Numerical experiments show that the density peak clustering algorithm based on voting method outperforms general DPC when facing overlapping data sets.
作者
黄文康
杨苏杭
范梦婷
原俊青
HUANG Wenkang;YANG Suhang;FAN Mengting;YUAN Junqing(Department of information technology,Zhejiang Economic&Trade Polytechnic,Hangzhou Zhejiang 310018,China;School of Science,Zhejiang University of Technology,Hangzhou Zhejiang 310023,China)
出处
《太赫兹科学与电子信息学报》
2021年第3期517-522,共6页
Journal of Terahertz Science and Electronic Information Technology
基金
国家自然科学基金青年基金资助项目(11601483)。
关键词
聚类
密度峰
K最近邻
投票法
clustering
density peak
K-Nearest Neighbor
voting method
作者简介
黄文康(1988-),男,硕士,实验师,主要研究方向为机器学习、人工智能。email:389321927@qq.com;通信作者:原俊青,email:yuanjq@zjut.edu.cn。