面向海量数据的改进最近邻优先吸收聚类算法被引量：5

Improved Nearest Neighbor Absorption First Clustering Algorithm for Massive Data

在线阅读下载PDF

导出

摘要针对最近邻优先吸收聚类算法难以应用在海量数据聚类处理上的不足,基于MapReduce提出改进算法。通过引入MapReduce并行框架,利用Canopy粗聚类优化计算过程,并对聚簇交叉部分的处理进行改进。采用3组大小不同的数据集进行实验,结果表明,与K-means算法和最近邻优先吸收聚类算法相比,改进算法在保证聚类质量的基础上具有较快的运行速度,并适用于海量数据的聚类分析。 Aiming at the problem that the Nearest Neighbor Absorption First(NNAF)clustering algorithm is difficult to be applied in the massive data clustering process,an improved algorithm is proposed based on MapReduce.By introducing MapReduce parallel programming framework and using Canopy coarse clustering,it optimizes the calculation process and improves the process of clustering the intersection.Three different data sets are used to compare the K-means algorithm,the improved NNAF clustering algorithm and the NNAF clustering algorithm.Experimental results show that the improved algorithm can guarantee the clustering quality to a certain extent and has higher running speed.It is suitable for clustering analysis of massive data.

作者宁可孙同晶徐洁洁 NING Ke;SUN Tongjing;XU Jiejie(School of Automation,Hangzhou Dianzi University,Hangzhou 310018,China;Zhejiang Province Electronic Information Products Testing Institute,Hangzhou 310007,China)

机构地区杭州电子科技大学自动化学院浙江省电子信息产品检验所

出处《计算机工程》 CAS CSCD 北大核心 2018年第4期35-40,共6页 Computer Engineering

基金浙江省信息安全重点实验室基金(KYZ066816004)

关键词海量数据聚类 MAPREDUCE框架最近邻优先吸收聚类算法 Canopy算法并行化 massive data clustering MapReduce framework Nearest Neighbor Absorption First(NNAF)clustering algorithm Canopy algorithm parallelization

分类号 TP391 [自动化与计算机技术—计算机应用技术]

作者简介宁可(1992—),男,硕士研究生,主研方向为海量数据挖掘,E-mail:961289941@qq.com;孙同晶,副教授、博士;;徐洁洁,工程师。

引文网络
相关文献

参考文献9

1牛新征,佘堃.面向大规模数据的快速并行聚类划分算法研究[J].计算机科学,2012,39(1):134-137. 被引量：22
2陈东明,刘健,王冬琦,徐晓伟.基于MapReduce的分布式网络数据聚类算法[J].计算机工程,2013,39(7):76-82. 被引量：9
3谢娟英,王艳娥.最小方差优化初始聚类中心的K-means算法[J].计算机工程,2014,40(8):205-211. 被引量：88
4冀素琴,石洪波.基于MapReduce的K-means聚类集成[J].计算机工程,2013,39(9):84-87. 被引量：8
5赵庆.基于Hadoop平台下的Canopy-Kmeans高效算法[J].电子科技,2014,27(2):29-31. 被引量：39
6胡建军,唐常杰,李川,彭京,元昌安,陈安龙,蒋永光.基于最近邻优先的高效聚类算法[J].四川大学学报（工程科学版）,2004,36(6):93-99. 被引量：24
7王鑫,王洪国,张建喜,谷建军.基于数据分区的最近邻优先聚类算法[J].计算机科学,2005,32(12):188-190. 被引量：4
8程苗,陈华平.基于Hadoop的Web日志挖掘[J].计算机工程,2011,37(11):37-39. 被引量：64
9冀素琴,石洪波.面向海量数据的K-means聚类优化算法[J].计算机工程与应用,2014,50(14):143-147. 被引量：13

二级参考文献79

1冯永,吴开贵,熊忠阳,吴中福.一种有效的并行高维聚类算法[J].计算机科学,2005,32(3):216-218. 被引量：6
2张惟皎,刘春煌,李芳玉.聚类质量的评价方法[J].计算机工程,2005,31(20):10-12. 被引量：61
3王文平,刘希玉,韩杰.基于并行遗传算法的关联规则挖掘[J].山东师范大学学报（自然科学版）,2006,21(4):29-31. 被引量：7
4钱线,黄萱菁,吴立德.初始化K-means的谱方法[J].自动化学报,2007,33(4):342-346. 被引量：32
5袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：155
6Han Jiawei,Kamber M.数据挖掘概念与技术[M].范明,孟小峰,译.2版.北京:机械工业出版社,2007.
7Savasere A,Omiecinski E,Navathe S.An Efficient Algorithm for Mining Association Rules in Large Databases[C] //Proceedings of the 21st VLDB Conference.Zurich,Switzerland:[s.n.] ,1995:432-444.
8Wikipedia. K-Means clustering [EB/OL]. http://en, wikipedia. org/wiki/K-Means.
9Kantabutra S, Couch A L Parallel K-Means Clustering Algo- rithm on NOWS[J]. Technical Journal, 2000,6 (1) : 243-247.
10Forman G, Zhang B. Distributed Data Clustering can be Efficient and Exact[J]. SIGKDD Explorations, 2000,2 (2) : 34-38.

共引文献258

1徐鹏飞,张华,贾剑平.一种新的水下焊缝图像信号提取方法[J].上海交通大学学报,2008,42(S1):97-99. 被引量：2
2刘春勇,黄志球,王进,徐丙凤.基于SLA的动态云体系结构[J].计算机工程,2011,37(S1):7-9. 被引量：2
3胡杰,胡伍生.基于格网模型的似大地水准面精化方法的研究[J].测绘科学,2009,34(S2):56-58. 被引量：6
4原旭,陈志奎,赵亮,杨德礼.一种基于Hadoop的改进减法聚类算法[J].微电子学与计算机,2015,32(3):151-155. 被引量：1
5魏大刚,唐常杰,段磊,钟义啸,朱军,蒋永光.基于最优投影和动态阈值的最近邻搜索算法[J].四川大学学报（自然科学版）,2006,43(4):777-782. 被引量：2
6吴青,翟建设,赵旭赟.基于层次聚类的分层可扩展性编码算法的优化[J].计算机应用与软件,2007,24(2):45-46. 被引量：4
7漆超,江嘉.基于数据挖掘技术的网站用户分析[J].昆明理工大学学报（理工版）,2007,32(2):48-51. 被引量：2
8胡建军.浅谈数据仓库与数据挖掘的本科教学[J].广西科学院学报,2007,23(3):209-210. 被引量：9
9禹亮,李仁发,李仲生,肖娜.基于近邻可视的图像浏览方式研究[J].计算机应用研究,2007,24(10):200-202.
10李双伟,范斗,王康元,邱家驹,鄢安河.基于数据分区的负荷密度显示的实现[J].继电器,2008,36(3):42-44. 被引量：1

同被引文献48

1刘厚莲.中国老年人口健康状况变动——基于第六次、第七次全国人口普查数据的分析[J].老龄科学研究,2023,11(2):1-14. 被引量：18
2王萌,何婷婷,姬东鸿,王晓荣.基于HowNet概念获取的中文自动文摘系统[J].中文信息学报,2005,19(3):87-93. 被引量：22
3李峰,李芳.中文词语语义相似度计算——基于《知网》2000[J].中文信息学报,2007,21(3):99-105. 被引量：106
4陈瑞卿,周健,虞烈.一种判断点与多边形关系的快速算法[J].西安交通大学学报,2007,41(1):59-63. 被引量：49
5吴晓锋,宗成庆.一种基于LDA的CRF自动文摘方法[J].中文信息学报,2009,23(6):39-45. 被引量：13
6韩凌波,王强,蒋正锋,郝志强.一种改进的k-means初始聚类中心选取算法[J].计算机工程与应用,2010,46(17):150-152. 被引量：94
7冯甜甜,龚健雅.基于建筑物提取的精细尺度人口估算研究[J].遥感技术与应用,2010,25(3):323-327. 被引量：11
8周爱武,于亚飞.K-Means聚类算法的研究[J].计算机技术与发展,2011,21(2):62-65. 被引量：135
9胡文江,胡大伟,高永兵,郝斌.基于关联规则与标签的好友推荐算法[J].计算机工程与科学,2013,35(2):109-113. 被引量：26
10高永兵,杨红磊,刘春祥,胡文江.基于内容与社会过滤的好友推荐算法研究[J].微型机与应用,2013,32(14):75-78. 被引量：8

引证文献5

1明拓思宇,陈鸿昶,黄瑞阳,柳杨.基于加权AMR图的语义子图预测摘要算法[J].计算机工程,2018,44(10):292-297. 被引量：4
2向程冠,熊世桓,王东,熊伟程.基于关联规则与相似度的社交好友推荐算法[J].计算机工程,2019,45(4):175-180. 被引量：14
3桑遥,尹君,王迪,王皓,景康.基于增强重引力搜索的高维数据协同聚类算法[J].计算机应用与软件,2020,37(10):300-306. 被引量：2
4邵欣欣.基于Canopy和共享最近邻的服务推荐算法[J].计算机科学,2020,47(S02):479-481. 被引量：3
5李亚云,忻静,丛婧.多尺度人口空间大数据聚合模型在地图可视化中的研究与应用[J].测绘通报,2024(3):145-150. 被引量：1

二级引证文献24

1梁天恺,曾碧,刘建圻.基于FP-Growth的智能家居用户时序关联操控习惯挖掘方法[J].计算机应用研究,2020,37(2):385-389. 被引量：9
2刘春燕.徒手扩张阴道术40例临床分析[J].青海医药杂志,2000,30(4):38-39.
3陈鸿昶,明拓思宇,刘树新,高超.基于整数线性规划重构抽象语义图结构的语义摘要算法[J].电子与信息学报,2019,41(7):1674-1681. 被引量：3
4杨欢,王新房.改进预测评分矩阵的协同过滤算法[J].软件导刊,2019,18(10):90-93. 被引量：1
5熊才权,陈曦.基于FP-Growth的社交好友推荐方法研究[J].湖北工业大学学报,2020,35(1):33-37. 被引量：2
6殷明明,史小静,俞鸿飞,段湘煜.基于对比注意力机制的跨语言句子摘要系统[J].计算机工程,2020,46(5):86-93. 被引量：8
7纪文璐,王海龙,苏贵斌,柳林.基于关联规则算法的推荐方法研究综述[J].计算机工程与应用,2020,56(22):33-41. 被引量：52
8吕鹏,李蒙迪,张卓.数字化社交的双重逻辑[J].西安交通大学学报（社会科学版）,2021,41(2):71-77. 被引量：1
9许柏炎,蔡瑞初,梁智豪.一种用于代码注释自动生成的语法辅助复制机制[J].计算机工程,2021,47(4):92-99. 被引量：3
10鲁茜,蒙祖强.Canopy算法中T值选取的优化及聚类效果的改进[J].信息与电脑,2021,33(6):61-65. 被引量：2

1王媛,梁泉,翁剑成,林鹏飞.基于特征图谱的区域出租车出行需求分布特征研究[J].交通工程,2018,18(1):1-6. 被引量：1
2李鹏飞,刘春宇,海军.云计算环境下关联性大数据实时流式可控聚类算法[J].科学技术与工程,2018,18(7):185-190. 被引量：13
3薛小娜,高淑萍,彭弘铭,吴会会.结合K近邻的改进密度峰值聚类算法[J].计算机工程与应用,2018,54(7):36-43. 被引量：22
4朱振国,冯应柱.基于数据场的类簇中心选取及其聚类[J].计算机工程与应用,2018,54(8):131-136. 被引量：5
5栗鹏飞.机械CAD/CAM技术工业中的应用与发展[J].时代农机,2018,45(2):49-50. 被引量：2
6新闻摄影月赛[J].中国记者,1987(5):61-63.
7程世文,裴丹,王长进.互联网软件错误日志聚类[J].小型微型计算机系统,2018,39(5):865-870. 被引量：6
8曾楠,许元斌,罗义旺,刘青,刘燕秋,张欢.基于分布式聚类模型的电力负荷特性分析[J].现代电力,2018,35(1):71-77. 被引量：16
9王兴,吴艺,蒋新华,廖律超.大规模数据集下基于DBSCAN算法的增量并行化快速聚类[J].计算机应用与软件,2018,35(4):269-275. 被引量：7
10赵文君,李枭.基于Harris算法的无人机影像拼接技术[J].软件导刊,2018,17(4):216-219. 被引量：9

计算机工程

2018年第4期

浏览历史

内容加载中请稍等...

面向海量数据的改进最近邻优先吸收聚类算法被引量：5

参考文献9

二级参考文献79

共引文献258

同被引文献48

引证文献5

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

面向海量数据的改进最近邻优先吸收聚类算法 被引量：5

参考文献9

二级参考文献79

共引文献258

同被引文献48

引证文献5

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

面向海量数据的改进最近邻优先吸收聚类算法被引量：5