文摘在自组织映射(Self-organizing Map,SOM)模型的训练过程中,不同类数据对权重矩阵的更新有不同作用,某一类数据对权重矩阵的更新会对其他类获胜神经元特征向量产生偏离其数据特征的影响,从而降低算法聚类精度。针对以上问题,提出一种改进的基于置信度SOM模型(Improved Confidence-based SOM Model,icSOM)。样本数据首先由K-means算法初步分类,为模型训练提供更多的数据信息;然后将预分类后的数据分别训练相互独立的SOM模型,以消除不同类之间的影响;最后在传统SOM模型基础上提出置信度矩阵概念,通过综合判断获胜神经元的置信度及其与输入数据间的欧氏距离最终得到置信神经元,根据置信神经元所属类别给数据分配聚类标签。在鸢尾花数据集(Iris)及葡萄酒数据集(Wine)上利用icSOM进行聚类分析,实验结果表明,所提算法可以更好地处理样本数据,取得了较好的聚类效果。
文摘在高压并联电抗器声纹信号监测系统中,长时海量无标签声纹的高维非平稳性导致特征提取困难、无监督聚类适应性差。由此提出了一种基于深度自适应K-means++算法(deep adaptive K-means++clustering algorithm,DAKCA)的750 kV电抗器声纹聚类方法。首先通过采用两阶段无监督策略微调的改进堆叠稀疏自编码器(stacked sparse autoencoder,SSAE),对快速傅里叶变换后的归一化频域数据提取电抗器原始声纹32维深度特征。进一步提出了依据最近邻聚类有效性指标(clustering validation index based on nearest neighbors,CVNN)的自适应K-means++聚类算法,构建了能自适应确定最优聚类个数的电抗器声纹聚类模型。最后通过西北地区某750 kV电抗器实测声纹数据集进行了验证。结果表明,DAKCA算法对无标签声纹数据在不同样本均衡程度下能够稳定提取32维深度特征,并实现最优聚类,为直接高效利用电抗器无标签声纹数据提供了参考。