摘要
为了提高聚类质量,针对BIRCH算法中在聚类精度方面所存在的不足,提出了聚类特征树中的不同簇应使用不同阀值的思想,较好地改善了对体积相差悬殊的簇不能很好聚类的问题。并且深入地研究和分析了如何在集群系统中进行快速聚类,提出了自定义数据类型、采用数据并行思想和非均匀数据划分策略等几点改进意见。最后实验结果表明,通过改进能够获得比较理想的运行时间和加速比性能。
To improve the quality ofclustering, consideringtheinsufficiency of clusteringprecisin which existsinthe BIRCH aglrithm, the idea of different threshold should be set in different cluster in CF-tree is implemented. An in-depth study and analysis is carried out on how to accelerate clustering in cluster system. Subsequently, some creative schemes such as custom datatype, data parallelism, and asymmetric data-partition are put forward. Finally, a result of the better performance is obtained after the improvement is verified by an experiment.
出处
《计算机工程与设计》
CSCD
北大核心
2007年第18期4345-4346,4369,共3页
Computer Engineering and Design
关键词
集群
数据挖掘
聚类
聚类质量
并行化
cluster
data mining
clustering
quality of clustering
parallelism
作者简介
朱映辉(1977-),男,广东梅州人,硕士,讲师,研究方向为分布式计算、数据挖掘;E-mail:zyh366@163.com
江玉珍(1977-),女,广东潮州人,硕士,讲师,研究方向为分布式计算、图像处理。