-
题名基于信息熵的混合属性数据谱聚类算法
被引量:13
- 1
-
-
作者
姜智涵
朱军
周晓锋
李帅
-
机构
中国科学院沈阳自动化研究所
中国科学院大学
中国科学院网络化控制系统重点实验室
-
出处
《计算机应用研究》
CSCD
北大核心
2019年第8期2256-2260,共5页
-
基金
工信部智能制造综合标准化与新模式应用项目(Y6L8283A01)
-
文摘
针对传统的聚类算法只能处理单属性的数据,不能很好地处理混合属性数据的聚类问题,以及目前大多数混合属性数据聚类算法对初始化敏感,不能处理任意形状的数据的问题,提出一种基于信息熵的混合属性数据谱聚类算法,用于处理混合类型数据。提出了一种新的相似性度量方式,利用谱聚类算法中的数值型数据构成的高斯核函数矩阵与新的基于信息熵的分类型数据构成的影响因子矩阵相结合代替了传统的相似度矩阵,新的相似度矩阵避免了数值属性与分类属性数据之间的转换和参数调整;把新的相似度矩阵运用到谱聚类算法中,以便于处理任意形状的数据,最终得出聚类结果。通过在UCI的数据集上的实验表明,该算法能有效地处理混合属性数据的聚类问题,且具有较高的稳定性以及良好的鲁棒性。
-
关键词
混合属性数据
谱聚类
高斯核函数
影响因子
-
Keywords
mixed type data
spectral clustering
Gaussian kernel function
influence factor
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-