-
题名K-均值算法的初始化改进与聚类质量评估
被引量:1
- 1
-
-
作者
何选森
何帆
于海澜
-
机构
广州商学院信息技术与工程学院
湖南大学信息科学与工程学院
北京理工大学管理与经济学院
-
出处
《西安工程大学学报》
CAS
2024年第6期114-123,共10页
-
基金
广东省普通高校重点领域专项(2021ZDZX1035)
广东省科技创新战略专项资金(pdjh2022b0598)。
-
文摘
为解决K-均值算法随机初始化的问题,提出了相应的改进方案。通过特征标准化和主成分分析(principal component analysis, PCA)实现数据降维;以最远质心和最小-最大距离规则确定算法的初始质心。为获得数据固有的聚类数量,采用经验法则和肘部法,并用轮廓分析评价聚类质量。仿真结果表明:其他算法平均的λ检验统计量是本方案的2.72倍,而且改进后的聚类误差下降了6.04%。
-
关键词
K-均值算法
主成分分析
最远质心选择
最小-最大距离规则
经验法则
肘部法
轮廓分析
聚类
-
Keywords
K-means algorithm
principal component analysis
furthest centroid selection
min-max distance rule
empirical rule
elbow method
silhouette analysis
clustering
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名高维数据聚类数量可视化确定模式
- 2
-
-
作者
何选森
何帆
樊跃平
陈洪军
-
机构
广州商学院信息技术与工程学院
湖南大学信息科学与工程学院
北京理工大学管理与经济学院
-
出处
《沈阳航空航天大学学报》
2024年第3期71-84,共14页
-
基金
广东省普通高校重点领域专项(项目编号:2021ZDZX1035)。
-
文摘
为了解决经典K-均值聚类算法要求用户事先知道待处理数据的聚类数量及聚类结果对算法的初始化很敏感的问题,提出一种对K-均值聚类算法的改进措施并可视化地确定聚类数量的综合方案。首先,对数据进行标准化,使其服从正态分布,利用主分量分析(princi‐palcomponentanalysis,PCA)抽取数据中最重要的特征以实现高维数据的降维;然后,采用最远质心选择和最小-最大距离规则对K-均值聚类算法的初始化进行修正,避免出现空聚类并确保数据的可分离性;在此基础上,采用统计经验法则估计聚类数量的可能范围,通过搜索在此范围内平方误差和(sum-of-squared-error,SSE)曲线的肘部估计最佳的聚类数量;最后,通过计算比较各个聚类的轮廓系数以评价算法的聚类质量,从而最终确定数据集固有的聚类数量。仿真结果表明,该方案不仅能可视化地确定数据集潜在的聚类数量,而且为大数据时代的高维数据分析提供了一种有效的方法。
-
关键词
K-均值聚类算法
主分量分析
最远质心选择
最小-最大距离规则
统计经验法则
肘部法
轮廓分析
-
Keywords
K-means clustering algorithm
principal component analysis
farthest centroid selection
min-max distance rule
statistical empirical rule
elbow method
silhouette analysis
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-