BIRCH聚类算法优化及并行化研究被引量：9

Research of BIRCH clustering algorithm optimization and parallelism

在线阅读下载PDF

导出

摘要为了提高聚类质量,针对BIRCH算法中在聚类精度方面所存在的不足,提出了聚类特征树中的不同簇应使用不同阀值的思想,较好地改善了对体积相差悬殊的簇不能很好聚类的问题。并且深入地研究和分析了如何在集群系统中进行快速聚类,提出了自定义数据类型、采用数据并行思想和非均匀数据划分策略等几点改进意见。最后实验结果表明,通过改进能够获得比较理想的运行时间和加速比性能。 To improve the quality ofclustering, consideringtheinsufficiency of clusteringprecisin which existsinthe BIRCH aglrithm, the idea of different threshold should be set in different cluster in CF-tree is implemented. An in-depth study and analysis is carried out on how to accelerate clustering in cluster system. Subsequently, some creative schemes such as custom datatype, data parallelism, and asymmetric data-partition are put forward. Finally, a result of the better performance is obtained after the improvement is verified by an experiment.

作者朱映辉江玉珍

机构地区韩山师范学院数学与信息技术学院

出处《计算机工程与设计》 CSCD 北大核心 2007年第18期4345-4346,4369,共3页 Computer Engineering and Design

关键词集群数据挖掘聚类聚类质量并行化 cluster data mining clustering quality of clustering parallelism

分类号 TP338.6 [自动化与计算机技术—计算机系统结构]

作者简介朱映辉（1977-），男，广东梅州人，硕士，讲师，研究方向为分布式计算、数据挖掘；E-mail：zyh366@163．com 江玉珍（1977-），女，广东潮州人，硕士，讲师，研究方向为分布式计算、图像处理。

引文网络
相关文献

参考文献5

1David Skillicon.Strategies for parallel data mining[J].IEEE Concurrency,2000,7(4):26-35.
2Giuseppe Patane,Marco Russo.Parallel clustering on a commodity supercomputer[J].IEEE-INNS-ENNS International Joint Conference on Neural Networks(IJCNN'00),2000,3(3):575-580.
3Guha U,Rastogi R,Shim K.CURE:An efficient clustering algorithm for large databases[J].Pergamon Information Systems,2001,26(1):35-61.
4Barry Wilkinson,Michael Allen.Parallel programming:Techniques and applications using networked workstation and parallel computers[M].影印版.北京:高等教育出版社,2002.
5周兵,沈钧毅,彭勤科.集群环境下的并行聚类算法[J].计算机工程,2004,30(4):4-6. 被引量：7

二级参考文献6

1[1]Warschko T M, Blum J M, Tichy W F. ParaStation: Efficient Parallel Computing by Clustering Workstations: Design and Evaluation. Journal of Systems Architecture, 1998, 44:241-260
2[2]Zhang Tian, Ramakrishnan R, Livny M. BIRCH: An Efficient Data Clustering Method for Very Large Databases. ACM 0-89791-794-4/96/0006, 1996
3[3]Ganti V, Gehrke J, Ramakrishnan R. CACTUS-clustering Categorical Data Using Summaries. KD D-99, ACM 1-58113-143-7/99/08, 1999
4[4]Wang W, Yang J, Muntz R. STING: A Statistical Information Grid Approach to Spatial Data Mining. 23rd VLDB Conference, 1997
5[5]Cheng Chunhuang, Fu A W, Zhang Yi. Entropy-based Subspace Clustering for Mining Numerical Data. KD D-99, ACM 1-58113-143-7/99/08, 1999
6[6]Boutsinas B,Gnardellis. On Distributing the Clustering Process. Pattern Recognition Letters, 2002,23: 999-1008

共引文献6

1赵光嗣,李伟生.基于MPI的并行小波聚类算法在曙光TC1700上的实现[J].计算机应用,2006,26(3):645-646. 被引量：2
2夏胜平,刘建军,袁振涛,虞华,张乐锋,郁文贤.基于集群的增量分布式RSOM聚类方法[J].电子学报,2007,35(3):385-391. 被引量：5
3夏胜平,刘建军,袁振涛,虞华,张乐锋,郁文贤.基于集群的集中调度式RSOM并行训练方法[J].系统工程与电子技术,2007,29(3):459-463.
4王华秋,廖晓峰,冯晋.一种并行自适应微粒群聚类算法[J].重庆大学学报（自然科学版）,2008,31(6):652-657.
5王华秋,廖晓峰.微粒群并行聚类在客户细分中的应用[J].计算机应用研究,2008,25(10):2987-2990. 被引量：3
6潘巍.对数据挖掘算法的优化及应用探析[J].电子元器件与信息技术,2020,4(7):91-93. 被引量：2

同被引文献56

1蒋盛益,李庆华.聚类分析中的差异性度量方法研究[J].计算机工程与应用,2005,41(11):146-149. 被引量：4
2任兴平,何忠龙,孟增辉.改进DBSCAN算法中参数Eps值的确定[J].现代电子技术,2007,30(11):120-121. 被引量：5
3HANJ,KAMBERM.数据挖掘概念与技术[M].范明,孟小峰,译.北京:机械工业出版社,2006.
4ZHANG TIAN, RAMAKRISHNAN R, LIVNY M. BIRCH: An efficient data clustering method for very large databases[ J]. ACM SIGMOD Record, 1996, 25(2) : 103 - 114.
5HUANG ZHEXUE. Extensions to the k-means algorithm for clustering large data sets with categorical values[ J], Data Mining and Knowledge Discovery, 1998, 2(3) : 283 - 304.
6MACQUEEN J. Some methods for classification and analysis of multivariate observations[ C]// Proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability. Berkeley: University of California Press, 1967, 1 : 281 - 297.
7HUANG ZHEXUE. A fast clustering algorithm to cluster very large categorical data sets in data mining[ C]// Proceedings of SIGMOD Workshop on Research Issues on Data Mining and Knowledge Discovery. [S. l ] : ACM Press, 1997:1 -8.
8MERZ C J, MERPHY P. UCI repository of machine learning databases[ EB/OL]. [ 2008 - 09 - 01 ]. http://www, ics. uci. edu/-mlearn/MLRRepository, html.
9Leung K W T, Ng W, Lee D L. Personalized Concept-based Clustering of Search Engine Queries[J]. IEEE Transactions on Knowledge and Data Engineering, 2008, 20(11): 1505-1518.
10冯兴杰,丁怡心.启发式多阈值BIRCH研究[J].中国民航大学学报,2007,25(5):30-32. 被引量：1

引证文献9

1蒋盛益,李霞.一种改进的BIRCH聚类算法[J].计算机应用,2009,29(1):293-296. 被引量：27
2蔡岳,袁津生.基于改进DBSCAN算法的文本聚类[J].计算机工程,2011,37(12):50-52. 被引量：20
3曹丹阳,杨炳儒,李广原,刘英华.一种基于CF树的k-medoids聚类算法[J].计算机应用研究,2011,28(9):3260-3263. 被引量：3
4杨晓斌,毛雪岷.聚类分析在电信客户细分中的应用[J].鄂州大学学报,2015,22(7):101-103.
5李帅,吴斌,杜修明,陈玉峰.基于Spark的BIRCH算法并行化的设计与实现[J].计算机工程与科学,2017,39(1):35-41. 被引量：11
6谢静瑶,解思江,焦阳,李晨.一种改进的启发式自适应DBSCAN聚类算法的研究及其在电力系统信息安全预警分析中的应用[J].电信科学,2017,33(S1):117-122. 被引量：5
7李道全,张玉霞,魏艳婷.基于聚类分析的能耗均衡无线传感器网络分簇算法[J].计算机工程,2019,45(10):116-121. 被引量：11
8杨有慧,董申颂,陈明媛,庞壮,覃芳璐.基于TPE-BIRCH的电网安全隐患分类方法[J].广西电力,2022,45(6):57-63. 被引量：1
9杨茜,吕杨,周俊山,张芮.BIRCH数据聚类算法优化研究及仿真分析[J].舰船电子工程,2024,44(4):115-118.

二级引证文献75

1刘潇潇.无线传感器网络的聚类算法与优化分析[J].网络空间安全,2022,13(5):53-58. 被引量：3
2李贤,罗可.BIRCH混合属性数据聚类方法[J].计算机工程与应用,2009,45(30):123-125. 被引量：3
3高强,宋双,刘翼光,黄昭婷,徐宏.商业智能在数字电影流动放映系统中的应用[J].现代电影技术,2010(3):24-28. 被引量：1
4毛健,倪云霞,陈佳.基于BIRCH的入侵检测算法[J].通信技术,2010,43(5):92-94. 被引量：1
5王利峰.动态索引树文本聚类方法中节点阀值的优化[J].电脑开发与应用,2010,23(9):62-65.
6赵凯,史长琼,张理阳.基于聚类分析的P2P流量识别[J].长沙理工大学学报（自然科学版）,2010,7(3):58-62. 被引量：3
7曹丹阳,杨炳儒,李广原,刘英华.一种基于CF树的k-medoids聚类算法[J].计算机应用研究,2011,28(9):3260-3263. 被引量：3
8郑宗良.基于改进DBSCAN算法的应急预案编制[J].计算机工程与科学,2012,34(9):149-153. 被引量：1
9安文娟,李丹,辛阳.基于聚类算法的实时IP流量识别技术研究[J].信息网络安全,2012(10):54-58.
10许霄峰,徐炜民.基于认知复杂度度量的文本推荐模型[J].计算机工程与设计,2012,33(10):3990-3994. 被引量：2

1邵峰晶,张斌,于忠清.多阈值BIRCH聚类算法及其应用[J].计算机工程与应用,2004,40(12):174-176. 被引量：17
2马颖.基于Agents网络入侵检测系统的研究[J].计算机与现代化,2003(2):56-57. 被引量：1
3杨立.《大学计算机基础》课程教学的几点思考[J].运城学院学报,2007,25(2):87-88. 被引量：7
4阮乐中,穆斌.入侵检测系统的研究[J].合肥工业大学学报（自然科学版）,2002,25(z1):938-941. 被引量：1
5宋庆雷,单洪.卫星网络中的拥塞控制算法分析[J].舰船电子工程,2007,27(2):130-133. 被引量：1
6杨库.市售Vista“畸形”配置实例解析[J].微型计算机,2006(33):127-127.
7银联钱包PK支付宝钱包相差悬殊的较量[J].金卡工程,2014,0(7):42-44. 被引量：1
8倪曼蒂,覃拥军.基于Web日志挖掘的用户模式识别研究[J].现代计算机,2013,19(11):14-17.
9陈绍彬,叶飞跃,刘佰强,金涛.食品HACCP分类的BIRCH算法[J].计算机工程,2008,34(23):59-61. 被引量：3
10康琼.关于计算机基础教学中的几点改进意见[J].信息与电脑（理论版）,2012(1):209-209.

计算机工程与设计

2007年第18期

浏览历史

内容加载中请稍等...

BIRCH聚类算法优化及并行化研究被引量：9

参考文献5

二级参考文献6

共引文献6

同被引文献56

引证文献9

二级引证文献75

相关作者

相关机构

相关主题

浏览历史

BIRCH聚类算法优化及并行化研究 被引量：9

参考文献5

二级参考文献6

共引文献6

同被引文献56

引证文献9

二级引证文献75

相关作者

相关机构

相关主题

浏览历史

BIRCH聚类算法优化及并行化研究被引量：9