-
题名一种基于抽样的大规模混合数据聚类集成算法
被引量:3
- 1
-
-
作者
庞天杰
梁吉业
-
机构
太原师范学院计算机系
山西大学计算智能与中文信息处理教育部重点实验室
-
出处
《计算机科学》
CSCD
北大核心
2016年第9期209-212,共4页
-
基金
国家自然科学基金项目:"用户行为数据"稀疏表示的理论与方法研究(61273294)
山西省回国留学人员科研资助项目:基于多粒度与变粒度的群决策方法研究(2013-101)资助
-
文摘
混合数据聚类是聚类分析中一个重要的问题。现有的混合数据聚类算法主要是在全体样本的相似性度量的基础上进行聚类,因此对大规模数据进行聚类时,算法效率不高。基于此,设计了一种新的抽样策略,在此基础上,提出了一种基于抽样的大规模混合数据聚类集成算法。该算法对利用新的抽样策略得到的多个样本子集分别进行聚类,并将结果集成得到最终聚类结果。实验证明,与改进的K-prototypes算法相比,该算法的效率有了显著提高,同时聚类有效性指标基本相同。
-
关键词
聚类
大规模混合数据
聚类集成
抽样
有效性指标
-
Keywords
Clustering, Large-scale mixed data, Clustering ensembles, Sampling, Validity index
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-