基于Hadoop平台下的Canopy-Kmeans高效算法被引量：39

Efficient Algorithm of Canopy-Kmeans Based on Hadoop Platform

在线阅读下载PDF

导出

摘要介绍了Hadoop平台下MapReduce的编程模型;分析了传统聚类Kmeans和Canopy算法的优缺点,并提出了基于Canopy的改进Kmeans算法。针对Canopy-Kmeans算法中Canopy选取的随机性问题,采用"最小最大原则"对该算法进行改进,避免了Cannopy选取的盲目性。采用MapReduce并行编程方法,以海量新闻信息聚类作为应用背景。实验结果表明,此方法相对于传统Kmeans和Canopy算法有着更高的准确率和稳定性。 This paper studies MapReduce programming model under the Hadoop platform, analyzes the advan- tages and the disadvantages of traditional Kmeans and Canopy algorithms, and then proposes an improved Kmeans al- gorithm based on Canopy. The ＂minimum maximum principle＂ is used to improve the randomicity problem of Cano- py-Kmeans algorithm to avoid the blindness of Cannopy. The MapReduce parallel programming method is carried out in massive news aggregation. The experiments show that this method has higher accuracy and stability than the tradi- tional Kmeans and Canopy algorithms.

作者赵庆

机构地区西安电子科技大学电子工程学院

出处《电子科技》 2014年第2期29-31,共3页 Electronic Science and Technology

关键词 HADOOP MAPREDUCE Canopy-Kmeans算法聚类 Hadoop MapReduce Canopy-Kmeans algorithm clustering

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

作者简介赵庆（1988-）,男,硕士研究生.研究方向：云计算,Hadoop平台下大数据及大规模数据挖掘.E-mail：522698733@qq.com

引文网络
相关文献

参考文献5

1汪中,刘贵全,陈恩红.一种优化初始中心点的K-means算法[J].模式识别与人工智能,2009,22(2):299-304. 被引量：140
2袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：155
3张玉芳,毛嘉莉,熊忠阳.一种改进的K-means算法[J].计算机应用,2003,23(8):31-33. 被引量：73
4赖玉霞,刘建平.K-means算法的初始聚类中心的优化[J].计算机工程与应用,2008,44(10):147-149. 被引量：75
5陈光平,王文鹏,黄俊.一种改进初始聚类中心选择的K-means算法[J].小型微型计算机系统,2012,33(6):1320-1323. 被引量：40

二级参考文献45

1荆丰伟,刘冀伟,王淑盛.改进的K-均值算法在岩相识别中的应用[J].微计算机信息,2004,20(7):41-42. 被引量：5
2袁方,孟增辉,于戈.对k-means聚类算法的改进[J].计算机工程与应用,2004,40(36):177-178. 被引量：48
3李永森,杨善林,马溪骏,胡笑旋,陈增明.空间聚类算法中的K值优化问题研究[J].系统仿真学报,2006,18(3):573-576. 被引量：39
4钱线,黄萱菁,吴立德.初始化K-means的谱方法[J].自动化学报,2007,33(4):342-346. 被引量：32
5袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：155
6李洋.K-means聚类算法在入侵检测中的应用[J].计算机工程,2007,33(14):154-156. 被引量：23
7(加)HanJ KamberM 范明盂小峰等译.数据挖掘概念与技术m[M].北京：机械工业出版社,2001.223-262.
8..http://lib, slat. Cmu. Edu/datasets/places. Data,.
9Guha S,Rastogi R,Shim K.Cure:an efficient clustering algorithm for large database[C]//Proc of ACM-SIGMOND lnt Conf Managemerit on Data, Seattle, Washington, 1998 . 73-84.
10Ester M,Kriegel H P,Sander J.A density-based algorithm tier discovering chlsters in large spatial databases with noise[C]//Proc 2nd Int Conf on Knowledge Discovery and Data Mining.Portland, 1999.20:226-231.

共引文献407

1赵春丽,王延博,万润之,孙丽平.基于R语言探析中医药治疗哮喘发作期的用药规律[J].世界科学技术-中医药现代化,2023,25(3):1011-1019. 被引量：6
2段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：1
3赵大伟,肖周芳.一种改进的基于密度和样本数量的K-means算法[J].科技信息,2008(28):170-172. 被引量：1
4黎新伍.医学图像体分割的特征聚类算法[J].清华大学学报（自然科学版）,2008,48(S2):1790-1793. 被引量：1
5楼佳,王小华.一种分裂式的k-means聚类算法[J].杭州电子科技大学学报（自然科学版）,2009,29(4):54-57. 被引量：1
6王海,高岭,陈东棋,任杰.一种基于用户行为的嵌入式功耗优化方法[J].系统仿真学报,2015,27(2):320-326.
7陈兴蜀,吴小松,王文贤,王海舟.基于特征关联度的K-means初始聚类中心优化算法[J].四川大学学报（工程科学版）,2015,47(1):13-19. 被引量：29
8李丽珊,朱文兴.基于簇中心动态迁移的一个聚类算法[J].福建农林大学学报（自然科学版）,2004,33(4):508-511.
9江华,王翰虎,陈梅.一种基于K-means聚类分组的P2P超结点模型[J].计算机应用与软件,2005,22(10):67-68. 被引量：1
10李业丽,秦臻.一种改进的k-means算法[J].北京印刷学院学报,2007,15(2):63-65. 被引量：9

同被引文献288

1周丽娟,王慧,王文伯,张宁.面向海量数据的并行KMeans算法[J].华中科技大学学报（自然科学版）,2012,40(S1):150-152. 被引量：33
2张石磊,武装.一种基于Hadoop云计算平台的聚类算法优化的研究[J].计算机科学,2012,39(S2):115-118. 被引量：29
3江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
4李巍巍.大数据技术应用研究[J].自动化与仪器仪表,2016(7):195-196. 被引量：3
5胡建军,唐常杰,李川,彭京,元昌安,陈安龙,蒋永光.基于最近邻优先的高效聚类算法[J].四川大学学报（工程科学版）,2004,36(6):93-99. 被引量：24
6任国锋,李德华,潘莹.一种改进的基尼指数特征权重算法[J].计算机与数字工程,2010,38(12):8-13. 被引量：1
7王鑫,王洪国,张建喜,谷建军.基于数据分区的最近邻优先聚类算法[J].计算机科学,2005,32(12):188-190. 被引量：4
8骆卫华,于满泉,许洪波,王斌,程学旗.基于多策略优化的分治多层聚类算法的话题发现研究[J].中文信息学报,2006,20(1):29-36. 被引量：38
9刘远超,王晓龙,刘秉权.一种改进的k-means文档聚类初值选择算法[J].高技术通讯,2006,16(1):11-15. 被引量：23
10周涓,熊忠阳,张玉芳,任芳.基于最大最小距离法的多中心聚类算法[J].计算机应用,2006,26(6):1425-1427. 被引量：72

引证文献39

1田进华,张韧志.基于MapReduce数字图像处理研究[J].电子设计工程,2014,22(15):93-95. 被引量：7
2武霞,董增寿,孟晓燕.基于大数据平台hadoop的聚类算法K值优化研究[J].太原科技大学学报,2015,36(2):92-96. 被引量：11
3孟海东,任敬佩.基于云计算平台的聚类算法[J].计算机工程与设计,2015,36(11):2990-2994. 被引量：10
4李兰英,董义明,孔银,周秋丽.改进K-means算法的MapReduce并行化研究[J].哈尔滨理工大学学报,2016,21(1):31-35. 被引量：7
5刘宝龙,苏金.双MapReduce改进的Canopy-Kmeans算法[J].西安工业大学学报,2016,36(9):730-737. 被引量：6
6李晓瑜,俞丽颖,雷航,唐雪飞.一种K-means改进算法的并行化实现与应用[J].电子科技大学学报,2017,46(1):61-68. 被引量：50
7张友海,李锋刚.基于MapReduce的Canopy-Kmeans算法的并行化[J].辽宁科技学院学报,2017,19(1):4-5. 被引量：2
8厍向阳,崔文强.改进的并行SVM回归算法[J].西安科技大学学报,2017,37(2):299-304. 被引量：2
9李海威,林珠,黄皓璇,郑伟鸿.面向科技资源需求的推荐方法研究[J].现代计算机（中旬刊）,2017,0(4):60-64. 被引量：1
10张友海,李锋刚.Kmeans算法的Spark实现及优化[J].西安文理学院学报（自然科学版）,2017,20(3):18-20. 被引量：1

二级引证文献236

1吴运明,王令村,魏子栋,郭顺利.基于Canopy-Kmeans的移动商务用户需求聚合挖掘及分析研究[J].情报科学,2022,40(10):97-106. 被引量：4
2常娥,冷卫杰.工业互联网无线室内定位技术概述[J].物联网学报,2020,4(2):129-135. 被引量：12
3罗朗,王利,周志平,赵卫东.基于DeepFM模型的科技资源推荐应用研究[J].计算机应用研究,2020,37(S01):31-33. 被引量：1
4张文杰,蒋烈辉.基于MapReduce并行化计算的大数据聚类算法[J].计算机应用研究,2020,37(1):53-56. 被引量：21
5王涵,张倩旭,王兆宇,袁帅.大数据技术在配变负载优化中的应用[J].科技经济导刊,2019(34):85-85.
6骆梅柳.基于大数据的校园舆情热点话题跟踪研究[J].智能计算机与应用,2020(8):287-289. 被引量：1
7马佳,汪再秋.基于改进Faster R-CNN的铝材板缺陷检测研究[J].内蒙古科技大学学报,2022,41(4):372-377. 被引量：2
8易心.CIS的意义与作用[J].湖南包装,2000,15(1):41-43.
9李向.基于蚁群算法优化Hadoop平台计算效能方法[J].微型电脑应用,2018,34(12):140-143. 被引量：1
10何婕,赖敏.云计算平台中分布式Hadoop数据挖掘关键技术研究（英文）[J].机床与液压,2018,46(24):144-149. 被引量：10

1毛典辉.基于MapReduce的Canopy-Kmeans改进算法[J].计算机工程与应用,2012,48(27):22-26. 被引量：66
2蔡龙飞.运用硬c均值改进kmeans算法的聚类分析[J].科技咨询导报,2007(24):144-145. 被引量：4
3刘宏志,朱方方.基于云模型的信息工程监理服务质量评价的研究[J].电子技术应用,2013,39(10):133-135. 被引量：13
4张少刚.遗传算法在计算机仿真技术中的应用[J].自动化与仪器仪表,2009(6):57-58. 被引量：3
5刘远超,王晓龙,刘秉权.一种改进的k-means文档聚类初值选择算法[J].高技术通讯,2006,16(1):11-15. 被引量：23
6赵伟,林楠,韩英,张洪涛.一种改进的K-means聚类的协同过滤算法[J].安徽大学学报（自然科学版）,2016,40(2):32-36. 被引量：14
7刘宝龙,苏金.双MapReduce改进的Canopy-Kmeans算法[J].西安工业大学学报,2016,36(9):730-737. 被引量：6
8陈一宏.从获取新闻信息方式看渠道与终端的价值[J].中国传媒科技,2009(2):16-16.
9崔莉霞.基于Hadoop的并行聚类算法的研究[J].计算机光盘软件与应用,2014,17(23):141-142. 被引量：1
10赵伟,李俊锋,韩英,张红涛.Hadoop云平台下的基于用户协同过滤算法研究[J].计算机测量与控制,2015,23(6):2082-2085. 被引量：5

电子科技

2014年第2期

浏览历史

内容加载中请稍等...

基于Hadoop平台下的Canopy-Kmeans高效算法被引量：39

参考文献5

二级参考文献45

共引文献407

同被引文献288

引证文献39

二级引证文献236

相关作者

相关机构

相关主题

浏览历史

基于Hadoop平台下的Canopy-Kmeans高效算法 被引量：39

参考文献5

二级参考文献45

共引文献407

同被引文献288

引证文献39

二级引证文献236

相关作者

相关机构

相关主题

浏览历史

基于Hadoop平台下的Canopy-Kmeans高效算法被引量：39