期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
K-均值算法的初始化改进与聚类质量评估 被引量:1
1
作者 何选森 何帆 于海澜 《西安工程大学学报》 CAS 2024年第6期114-123,共10页
为解决K-均值算法随机初始化的问题,提出了相应的改进方案。通过特征标准化和主成分分析(principal component analysis, PCA)实现数据降维;以最远质心和最小-最大距离规则确定算法的初始质心。为获得数据固有的聚类数量,采用经验法则... 为解决K-均值算法随机初始化的问题,提出了相应的改进方案。通过特征标准化和主成分分析(principal component analysis, PCA)实现数据降维;以最远质心和最小-最大距离规则确定算法的初始质心。为获得数据固有的聚类数量,采用经验法则和肘部法,并用轮廓分析评价聚类质量。仿真结果表明:其他算法平均的λ检验统计量是本方案的2.72倍,而且改进后的聚类误差下降了6.04%。 展开更多
关键词 K-均值算法 主成分分析 最远质心选择 最小-最大距离规则 经验法则 肘部法 轮廓分析 聚类
在线阅读 下载PDF
高维数据聚类数量可视化确定模式
2
作者 何选森 何帆 +1 位作者 樊跃平 陈洪军 《沈阳航空航天大学学报》 2024年第3期71-84,共14页
为了解决经典K-均值聚类算法要求用户事先知道待处理数据的聚类数量及聚类结果对算法的初始化很敏感的问题,提出一种对K-均值聚类算法的改进措施并可视化地确定聚类数量的综合方案。首先,对数据进行标准化,使其服从正态分布,利用主分量... 为了解决经典K-均值聚类算法要求用户事先知道待处理数据的聚类数量及聚类结果对算法的初始化很敏感的问题,提出一种对K-均值聚类算法的改进措施并可视化地确定聚类数量的综合方案。首先,对数据进行标准化,使其服从正态分布,利用主分量分析(princi‐palcomponentanalysis,PCA)抽取数据中最重要的特征以实现高维数据的降维;然后,采用最远质心选择和最小-最大距离规则对K-均值聚类算法的初始化进行修正,避免出现空聚类并确保数据的可分离性;在此基础上,采用统计经验法则估计聚类数量的可能范围,通过搜索在此范围内平方误差和(sum-of-squared-error,SSE)曲线的肘部估计最佳的聚类数量;最后,通过计算比较各个聚类的轮廓系数以评价算法的聚类质量,从而最终确定数据集固有的聚类数量。仿真结果表明,该方案不仅能可视化地确定数据集潜在的聚类数量,而且为大数据时代的高维数据分析提供了一种有效的方法。 展开更多
关键词 K-均值聚类算法 主分量分析 最远质心选择 最小-最大距离规则 统计经验法则 肘部法 轮廓分析
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部