基于密度峰值的网格聚类算法被引量：12

Grid clustering algorithm based on density peaks

在线阅读下载PDF

导出

摘要 2014年提出的密度峰值聚类算法,思想简洁新颖,所需参数少,不需要进行迭代求解,而且具有可扩展性。基于密度峰值聚类算法提出了一种网格聚类算法,能够高效地对大规模数据进行处理。首先,将N维空间粒化为不相交的长方形网格单元;然后,统计单元空间的信息,利用密度峰值聚类寻找中心点的思想确定中心单元,即中心网格单元被一些低局部密度的数据单元包围,而且与比自身局部密度高的网格单元的距离相对较大;最后,合并与中心网格单元相近网格单元,从而得出聚类结果。在UCI人工数据集上的仿真实验结果表明,所提算法能够较快得出聚类中心,有效处理大规模数据的聚类问题,具有较高的效率,与原始的密度峰值聚类算法相比,在不同数据集上时间损耗降低至原来的1/100~1/10,而精度损失维持在5%~8%。 The Density Peak Clustering （DPC） algorithm which required few parameters and no iteration was proposed in 2014, it was simple and novel. In this paper, a grid clustering algorithm which could efficiently deal with large-scale data was proposed based on DPC. Firstly, the N dimensional space was divided into disjoint rectangular units, and the unit space information was counted. Then the central cells of space was found based on DPC, namely, the central cells were surrounded by other grid cells of low local density, and the distance with grid cells of high local density was relatively large. Finally, the grid cells adjacent to their central cells were merged to obtain the clustering results. The experimental results on UCI artificial data set show that the proposed algorithm can quickly find the clustering centers, and effectively deal with the clustering problem of large-scale data, which has a higher efficiency compared with the original density peak clustering algorithm on different data sets, reducing the loss of time 10 to 100 times, and maintaining the loss of accuracy at 5% to 8%.

作者杨洁王国胤王飞

机构地区计算智能重庆市重点实验室(重庆邮电大学) 遵义师范学院物理与电子科学学院

出处《计算机应用》 CSCD 北大核心 2017年第11期3080-3084,共5页 journal of Computer Applications

基金国家自然科学基金资助项目(61572091) 重庆市研究生科研创新项目(CYB16106) 高端人才项目(RC2016005) 贵州省级重点学科(黔学位办[2013]18号)~~

关键词密度峰值网格粒化大规模数据聚类 density peak grid granulation large-scale data clustering

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

作者简介杨洁（1987-），男，贵州遵义人，博士研究生，主要研究方向：粒计算、粗糙集、数据挖掘. 通信作者电子邮箱wanggy@ieee．org王国胤（1970-），男，重庆人，教授，博士，CCF会员，主要研究方向：粒计算、软计算、认知计算. 王飞（1989-），男，河南开封人，硕士研究生，主要研究方向：数据挖掘、粒计算。

引文网络
相关文献

参考文献3

1周水庚,周傲英,金文,范晔,钱卫宁.FDBSCAN:一种快速 DBSCAN算法(英文)[J].软件学报,2000,11(6):735-744. 被引量：42
2张雪萍,龚康莉,赵广才.基于MapReduce的K-Medoids并行算法[J].计算机应用,2013,33(4):1023-1025. 被引量：33
3马箐,谢娟英.基于粒计算的K-medoids聚类算法[J].计算机应用,2012,32(7):1973-1977. 被引量：39

二级参考文献31

1江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：80
2王伦文.聚类的粒度分析[J].计算机工程与应用,2006,42(5):29-31. 被引量：19
3KAUFMAN L, ROUSSEEUW P J. Finding groups in data: an introduc- tion to duster analysis [ M]. New York: Wiley, 1990:126 - 163.
4PARK H S, JUN C H. A simple and fast algorithm for K-medoids clustering [ J]. Expert Systems with Applications, 2009, 36(2) :3336 -3341.
5ZADEH L A. Fuzzy sets and information granularity [ M]// Fuzzy Sets, Fuzzy Logic and Fuzzy Systems. River Edge, NJ: Word Sei- entitle, 1996:433-448.
6DINGS F, XU L, ZHU H, et al. Research and progress of cluster algorithms based on granular computing [J]. International Journal of Digital Content Technology and its Applications, 2010, 4(5): 96 - 104.
7XIE X L, BENI G. A validity measure for fuzzy clustering [ J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1991, 13(8): 841-847.
8FRANK A, ASUNCION A. UCI machine learning repository [ EB/ OL]. [ 2011 - 11 - 02]. http://archive, ics. uci. edu/ml.
9WILKINSONB ALLENM 陆鑫达汤勇平增志勇译.并行程序设计[M].北京:机械工业出版社,2002..
10Sheikholeslami G，Proceedings of the 2 4th VL DB Conference，1998年，428页

共引文献106

1刘嘉嘉,杜习英.一种新的基于密度的自适应取样聚类算法[J].电脑知识与技术（过刊）,2007(2):478-480.
2张海龙,王仁彪,聂俊,刘进忠.海量数据的网格启发信息密度聚类算法[J].吉林大学学报（工学版）,2011,41(S2):254-258. 被引量：2
3宋明,刘宗田.基于数据交叠分区的并行DBSCAN算法[J].计算机应用研究,2004,21(7):17-20. 被引量：9
4陈燕俐,洪龙,金达文,朱梧槚.一种简单有效的基于密度的聚类分析算法[J].南京邮电学院学报（自然科学版）,2005,25(4):24-29. 被引量：8
5何中胜,刘宗田,庄燕滨.基于数据分区的并行DBSCAN算法[J].小型微型计算机系统,2006,27(1):114-116. 被引量：16
6张枫,邱保志.基于网格的高效DBSCAN算法[J].计算机工程与应用,2007,43(17):167-169. 被引量：8
7卢炎生,娄强.障碍空间里基于密度的快速聚类算法[J].小型微型计算机系统,2007,28(11):1976-1980. 被引量：4
8王翠茹,朵春红.一种改进的基于密度的DBSCAN聚类算法[J].广西师范大学学报（自然科学版）,2007,25(4):104-107. 被引量：4
9胡学钢,王东波,吴共庆.一种基于层次树的高效密度聚类算法[J].合肥工业大学学报（自然科学版）,2008,31(2):187-190. 被引量：4
10蔡永旺,杨炳儒.适用于公交站点聚类的DBSCAN改进算法[J].计算机工程,2008,34(10):190-192. 被引量：3

同被引文献92

1张敏,于剑.基于划分的模糊聚类算法[J].软件学报,2004,15(6):858-868. 被引量：176
2王丽娟,关守义,王晓龙,王熙照.基于属性权重的Fuzzy C Mean算法[J].计算机学报,2006,29(10):1797-1803. 被引量：46
3孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1084
4曾志,李君利,贾向红,许峰,黄增信.空间辐射剂量及屏蔽效应研究[J].清华大学学报（自然科学版）,2008,48(3):391-394. 被引量：9
5郭庆胜,郑春燕,胡华科.基于邻近图的点群层次聚类方法的研究[J].测绘学报,2008,37(2):256-261. 被引量：28
6宋浩远.基于模型的聚类方法研究[J].重庆科技学院学报（自然科学版）,2008,10(3):71-73. 被引量：13
7李静,陈立潮,成洪静,聂跃光.基于Delaunay三角网的CBDT聚类算法研究[J].计算机技术与发展,2009,19(1):21-24. 被引量：3
8印桂生,于翔,宁慧.一种基于网格的增量聚类算法[J].计算机应用研究,2009,26(6):2038-2040. 被引量：4
9夏鲁宁,荆继武.SA-DBSCAN:一种自适应基于密度聚类算法[J].中国科学院研究生院学报,2009,26(4):530-538. 被引量：82
10武佳薇,李雄飞,孙涛,李巍.邻域平衡密度聚类算法[J].计算机研究与发展,2010,47(6):1044-1052. 被引量：22

引证文献12

1张辉,韩发,鹿方凯.自适应局部密度变化空间聚类算法研究[J].软件导刊,2019,18(1):95-98.
2孙绵,侯再恩,韩肖赟.基于多密度峰值的CFSFDP算法改进[J].计算机应用与软件,2019,36(8):235-240.
3何洋,吴飞,贺成成,朱海,毛万葵.基于K-IDPC算法的Wi-Fi室内定位方法[J].传感器与微系统,2019,38(11):46-49. 被引量：2
4郑诚,曹杨.参数自适应的网格密度聚类算法[J].计算机应用研究,2019,36(11):3278-3281. 被引量：3
5史海洋,虞慧群,范贵生.基于聚类算法的客户细分及其优化[J].计算机工程与设计,2019,40(11):3282-3287. 被引量：5
6王玮琪,万仁霞,周方祥.局部网格动态聚类算法[J].现代电子技术,2020,43(1):102-106. 被引量：2
7徐红艳,普蓉,黄法欣,王嵘冰.基于网格和密度比的DBSCAN聚类算法研究[J].计算机与数字工程,2020,48(6):1269-1274. 被引量：4
8夏小涵,蔡超,邱佳慧,杨静远,张香云,肖然.基于稀疏栅格优化的蜂窝车联网定位算法[J].应用科学学报,2021,39(2):210-221. 被引量：2
9冯俊淇,张正军,章曼,严涛.基于熵与邻域约束的模糊C均值改进算法[J].计算机与现代化,2021(11):89-94.
10杨静远,金珊,韩冬傲,黄家祺,夏小涵.基于指纹定位技术的放射源定位方法研究[J].核科学与工程,2021,41(6):1289-1296. 被引量：2

二级引证文献22

1冯建英,石岩,王博,穆维松.基于聚类分析的数据挖掘技术及其农业应用研究进展[J].农业机械学报,2022,53(S01):201-212. 被引量：15
2段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：1
3刘文芬,穆晓东,黄月华.基于多分辨率网格的异常检测方法[J].计算机工程与应用,2020,56(17):78-85. 被引量：4
4郭宗祥.基于属性相似度与聚类的知识服务匹配研究[J].组合机床与自动化加工技术,2020(9):171-174. 被引量：2
5刘玥波,张伟杰.社交网络数据动态聚类调度算法实现[J].计算机仿真,2021,38(1):269-272. 被引量：3
6孔德明,段呈新,巴特·古森斯,王书涛.基于车载16线激光雷达的障碍物检测方法[J].计量学报,2021,42(7):846-852. 被引量：10
7杨旭辉,张帆,胡涛.大数据环境下基于改进网格单元的DBSCAN算法[J].信息工程大学学报,2021,22(3):351-358. 被引量：4
8蒲晓川,黄俊丽,祁宁,宋长松.基于密度信息熵的K-Means算法在客户细分中的应用[J].吉林大学学报（理学版）,2021,59(5):1245-1251. 被引量：9
9孙艺,赵瑛珲,王天棋,马彦凯,赵佳琪.一种K-均值优化算法的研究与改进[J].自动化技术与应用,2021,40(9):1-5. 被引量：3
10刘小康,张菁,张延迟.基于子簇融合和线性判别分析的密度峰值聚类算法[J].传感器与微系统,2021,40(12):133-136. 被引量：3

1李伟生,陈曦.一种结合显著性检测与词袋模型的目标识别方法[J].计算机工程与科学,2017,39(9):1706-1713. 被引量：1
2王延松,戚湧,李千目.多源异构传感通信大数据的融合调度算法[J].软件,2017,38(10):29-38. 被引量：4
3杰弗里.巴默尔,迈克尔.T.斯维什尔.图解大概念(续9)[J].建筑工人,2017,38(10):40-41.
4邹云峰,张昕,宋世渊,倪巍伟.基于局部密度的快速离群点检测算法[J].计算机应用,2017,37(10):2932-2937. 被引量：26
5赵宝文,徐华.基于MapReduce的并行MRACO-PAM聚类算法[J].计算机工程与科学,2017,39(10):1801-1806. 被引量：4
6管宇,徐庆华,陈宁,杨智龙.基于源头管控的电力统计管理变革[J].电力与能源,2017,38(5):625-628.
7冯建宏.关节松动术配合等速训练在肩袖损伤术后康复中的应用[J].按摩与康复医学,2017,8(22):25-26. 被引量：3
8刘晓波,邵伟芹,张明明,左红艳.基于双网格校正小波聚类的转子故障诊断[J].计算机集成制造系统,2017,23(9):1883-1890. 被引量：6
9潘越,杨晨凯,陆泽健,黄胜,陈龙.网络化分布式军事信息云架构解决方案的设计与实现[J].计算机应用与软件,2017,34(10):97-101. 被引量：4
10贺恒松,李文明,李文锋.基于FP-growth的数据关联改进算法[J].电子测量技术,2017,40(9):58-64. 被引量：3

计算机应用

2017年第11期

浏览历史

内容加载中请稍等...

基于密度峰值的网格聚类算法被引量：12

参考文献3

二级参考文献31

共引文献106

同被引文献92

引证文献12

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

基于密度峰值的网格聚类算法 被引量：12

参考文献3

二级参考文献31

共引文献106

同被引文献92

引证文献12

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

基于密度峰值的网格聚类算法被引量：12