深度嵌入聚类(deep embedding clustering,DEC)算法只通过自编码器,以单一实例重构的方式将数据嵌入到低维矢量化特征空间中进行聚类,而忽略了不同实例之间的关系,导致可能无法很好地区分嵌入空间中的实例。针对上述问题,提出基于对比...深度嵌入聚类(deep embedding clustering,DEC)算法只通过自编码器,以单一实例重构的方式将数据嵌入到低维矢量化特征空间中进行聚类,而忽略了不同实例之间的关系,导致可能无法很好地区分嵌入空间中的实例。针对上述问题,提出基于对比学习的矢量化特征空间嵌入聚类(vectorized feature space embedded clustering based on contrastive learning,VECCL)方法。通过对比学习以辨识数据实例之间异同性的方式,从数据中提取出具有同近异远聚类语义的特征,并作为先验知识带入DEC中,引导自编码器初始化带有深层数据信息的低维聚类特征空间。同时利用软分类标签构造熵损失,与自编码器的重构损失一起作为正则化项引入聚类损失函数中,共同细化聚类。实验结果表明,所提方法提取特征的能力更强,与DEC方法在数据集CIFAR10、CIFAR100和STL10上的实验结果相比,ACC分别提升48.1个百分点、23.1个百分点和41.8个百分点,NMI分别提升41.0个百分点、25.2个百分点和39.0个百分点,ARI分别提升45.4个百分点、16.4个百分点和41.8个百分点。展开更多
电子病历数据经常存在缺失,严重影响分析结果.基于MIMIC数据库中的重症监护单元(intensive care unit,ICU)患者数据研究缺失值插补,数据集由23组临床常用生理变量以及不存在缺失的5260例样本构成.提出了一种基于深度嵌入聚类的K近邻插...电子病历数据经常存在缺失,严重影响分析结果.基于MIMIC数据库中的重症监护单元(intensive care unit,ICU)患者数据研究缺失值插补,数据集由23组临床常用生理变量以及不存在缺失的5260例样本构成.提出了一种基于深度嵌入聚类的K近邻插值方法.该方法以深度嵌入聚类为核心,通过多次聚类构造样本邻近度矩阵,再选择缺失样本的K个近邻样本,以这些近邻样本的平均值填补缺失.与均值插补、中值插补、后验分布估算插补和条件均值插补相比,该方法插补后的结果与原数据相似度更高,且更好地保留了样本间的差异性.展开更多
随着水、光互补发电系统的应用越来越广泛,如何对水、光出力及负荷增长变化的不确定的融合特性建模对电网的运行调度及规划愈加重要。典型场景生成是解决该问题的主要方法之一,由于传统采用历史数据概率建模,抽样并削减生成场景的方法...随着水、光互补发电系统的应用越来越广泛,如何对水、光出力及负荷增长变化的不确定的融合特性建模对电网的运行调度及规划愈加重要。典型场景生成是解决该问题的主要方法之一,由于传统采用历史数据概率建模,抽样并削减生成场景的方法计算复杂度高、准确率低,且无法有效处理高维多变量数据,该文提出一种基于深度嵌入聚类的水光荷不确定性源场景生成方法。首先利用堆栈自编码(stacked auto-encoder,SAE)网络提取水光荷不确定变量的初始特征,降低数据维度;然后,利用KL(Kullback-Leibler)散度优化聚类分配目标对自编码网络进行调整,采用自适应矩估计(adaptive moment estimation,Adam)优化算法得到模型最佳参数,通过对编码所嵌入的特征向量不断迭代优化,得到水光荷不确定性变量间的时空依赖关系,从而生成典型场景。算例分析以某地区电网实际采集数据为研究对象,利用误差平方和(sum of squared error,SSE)、SIL、CHI指标对比传统聚类方法,验证了所提算法的有效性。展开更多
文摘深度嵌入聚类(deep embedding clustering,DEC)算法只通过自编码器,以单一实例重构的方式将数据嵌入到低维矢量化特征空间中进行聚类,而忽略了不同实例之间的关系,导致可能无法很好地区分嵌入空间中的实例。针对上述问题,提出基于对比学习的矢量化特征空间嵌入聚类(vectorized feature space embedded clustering based on contrastive learning,VECCL)方法。通过对比学习以辨识数据实例之间异同性的方式,从数据中提取出具有同近异远聚类语义的特征,并作为先验知识带入DEC中,引导自编码器初始化带有深层数据信息的低维聚类特征空间。同时利用软分类标签构造熵损失,与自编码器的重构损失一起作为正则化项引入聚类损失函数中,共同细化聚类。实验结果表明,所提方法提取特征的能力更强,与DEC方法在数据集CIFAR10、CIFAR100和STL10上的实验结果相比,ACC分别提升48.1个百分点、23.1个百分点和41.8个百分点,NMI分别提升41.0个百分点、25.2个百分点和39.0个百分点,ARI分别提升45.4个百分点、16.4个百分点和41.8个百分点。
文摘电子病历数据经常存在缺失,严重影响分析结果.基于MIMIC数据库中的重症监护单元(intensive care unit,ICU)患者数据研究缺失值插补,数据集由23组临床常用生理变量以及不存在缺失的5260例样本构成.提出了一种基于深度嵌入聚类的K近邻插值方法.该方法以深度嵌入聚类为核心,通过多次聚类构造样本邻近度矩阵,再选择缺失样本的K个近邻样本,以这些近邻样本的平均值填补缺失.与均值插补、中值插补、后验分布估算插补和条件均值插补相比,该方法插补后的结果与原数据相似度更高,且更好地保留了样本间的差异性.
文摘随着水、光互补发电系统的应用越来越广泛,如何对水、光出力及负荷增长变化的不确定的融合特性建模对电网的运行调度及规划愈加重要。典型场景生成是解决该问题的主要方法之一,由于传统采用历史数据概率建模,抽样并削减生成场景的方法计算复杂度高、准确率低,且无法有效处理高维多变量数据,该文提出一种基于深度嵌入聚类的水光荷不确定性源场景生成方法。首先利用堆栈自编码(stacked auto-encoder,SAE)网络提取水光荷不确定变量的初始特征,降低数据维度;然后,利用KL(Kullback-Leibler)散度优化聚类分配目标对自编码网络进行调整,采用自适应矩估计(adaptive moment estimation,Adam)优化算法得到模型最佳参数,通过对编码所嵌入的特征向量不断迭代优化,得到水光荷不确定性变量间的时空依赖关系,从而生成典型场景。算例分析以某地区电网实际采集数据为研究对象,利用误差平方和(sum of squared error,SSE)、SIL、CHI指标对比传统聚类方法,验证了所提算法的有效性。