基于KD树的k-means聚类算法优化被引量：6

Optimization of k-means clustering algorithm based on KD-tree

在线阅读下载PDF

导出

摘要作为模式识别最基本的分类方法之一,聚类在各个科学领域的数据分析中都扮演着重要的角色。然而随着大数据的出现,聚类分析在前沿发展中不断地面临着计算复杂度和计算成本等新的问题和挑战。通过研究k-means聚类算法的时间复杂度O(nk),针对迭代过程中大量的最近邻计算和其特殊场景,引入KD树作为索引,提出了基于单KD树的近似近邻算法和基于多KD树的交叉搜索算法。将k-means聚类算法的时间复杂度降为O(nlog k),并通过实验验证,基于多树的交叉搜索算法具有与k-means聚类算法相当的聚类质量。 As one of the most basic classification methods for pattern recognition,clustering plays an important role in data analysis in various scientific fields.However,with the emergence of big data,clustering analysis continues to face new problems and challenges in frontier development such as computing complexity and computational cost.By studying the time complexity O(nk)of the k-means clustering algorithm,we introduce the KD-tree as an index for the large number of nearest neighbor calculations,which scenario is special,in the iterative process,and propose approximate nearest neighbor search algorithms based on a single KD-tree or multiple KD-trees.The algorithms reduce the time complexity of the k-means clustering algorithm to O(nlog k).It is verified by experiments that the algorithm based on multiple KD-trees has the comparable clustering quality with the k-means clustering algorithm.

作者薛丁文李建中 XUE Dingwen;LI Jianzhong(Department of Computer Science and Technology,Harbin Institute of Technology,Harbin 150001,China)

机构地区哈尔滨工业大学计算机科学与技术学院

出处《智能计算机与应用》 2021年第11期194-197,共4页 Intelligent Computer and Applications

关键词聚类分析 K-MEANS聚类 KD树近似近邻 clustering analysis k-means clustering KD-tree approximate nearest neighbor

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

作者简介薛丁文(1995-),男,博士研究生,主要研究方向:海量数据聚类分析;李建中(1950-),男,教授,博士生导师,主要研究方向:海量数据计算、无线传感网络。

引文网络
相关文献

参考文献2

1章永来,周耀鉴.聚类算法综述[J].计算机应用,2019,39(7):1869-1882. 被引量：215
2李建中,李英姝.大数据计算的复杂性理论与算法研究进展[J].中国科学：信息科学,2016,46(9):1255-1275. 被引量：10

二级参考文献155

1Shoshani A. Statistical databases: characteristics, problems, and some solutions. In: Proceedings of the 8th Interna- tional Conference on Very Large Data Bases, Mexico City, 1982. 208-222.
2Shoshani A, Olken F, Wong H K T. Characteristics of scientific databases. In: Proceedings of the 10th International Conference on Very Large Data Bases, Singapore, 1984. 147-160.
3Shoshani A, Wong H K T. Statistical and scientific database issues. IEEE T~'ans Softw Eng, 1985, 11:1040-1047.
4Turing A M. On computable numbers, with an application to the entscheidungs problem. Proc London Math Soc, 1936, 2:230-265.
5李建中.大数据计算的挑战.见:香山科学会议,北京,2012.
6李建中.大数据计算的基本概念与研究问题.见:国家基金委第89期双清论坛,上海,2014.
7Li J Z. Complexity, algorithms and quality of big data intensive computing. In: Proceedings of the 19th International Conference on Database Systems for Advanced Applications, Bali, 2014. 230-265.
8李建中.大数据计算的研究问题和部分解.见:第30届中国数据库学术会议,哈尔滨,2013.
9Kleene S C. General recursive functions of natural numbers. MATH ANN, 1936, 112:727-742.
10Post E L. Finite combinatory processes-formulation 1. J Symb Log, 1936, 1:103-105.

共引文献223

1冯建英,石岩,王博,穆维松.基于聚类分析的数据挖掘技术及其农业应用研究进展[J].农业机械学报,2022,53(S01):201-212. 被引量：15
2许文坚,高维新,程耀坤.基于钻石模型的广东省生猪产业竞争力评价分析[J].现代畜牧兽医,2022(12):56-62. 被引量：3
3刘振宇,丁宇祺.自然环境中被遮挡果实的识别方法研究[J].计算机应用研究,2020,37(S02):333-335. 被引量：8
4张仲宸,周浩,林波荣,李嘉麒,田昕,吴佳欣,陈帅元,黄莉.基于数据挖掘的办公建筑运行阶段碳排放分析[J].建筑节能,2020,48(11):1-6. 被引量：11
5龙虎.大数据分析与计算体系架构研究[J].信息与电脑,2018,30(18):130-131. 被引量：4
6罗钊航,车宇.矢量大数据高性能计算模型及关键技术[J].电子技术与软件工程,2018(21):143-143. 被引量：2
7杨勇杰.浅析算法分析和计算复杂性理论研究方法[J].科技资讯,2019,17(5):234-235. 被引量：3
8王胜毅,蔄晓琨,于振,夏君.基于聚类的输电线路工程造价综合智能预测方法[J].山东电力技术,2019,46(5):12-16. 被引量：10
9徐建国,韩琮师.改进K-means算法在高校舆情中的应用[J].软件导刊,2019,18(7):142-144. 被引量：4
10任静,樊泽明,康萍.聚类算法在计量属性基准确定中的应用研究[J].电子设计工程,2019,27(16):83-87. 被引量：2

同被引文献50

1姚绍华,贺松,涂园园.基于改进欧式聚类的三维激光雷达点云目标分割方法[J].智能计算机与应用,2021,11(10):73-76. 被引量：10
2白象忠,郝亚娟.非线性流体弹性力学研究进展[J].力学进展,2008,38(5):545-560. 被引量：16
3陈国良,张勇慧,盛谦,刘修国.基于地理信息系统的公路边坡三维建模及可视化研究[J].岩土力学,2011,32(11):3393-3398. 被引量：9
4田红保,王强.基于智慧物联的地质灾害易发区监测预警系统研究[J].国土资源信息化,2015(4):43-46. 被引量：4
5郭中州,何志强,夏陈超,陈伟芳.高效计算网格壁面距离的KD树方法[J].国防科技大学学报,2017,39(4):21-25. 被引量：5
6王卫兵,白小玲,徐倩.SURF和RANSAC的特征图像匹配[J].哈尔滨理工大学学报,2018,23(1):117-121. 被引量：26
7谢静瑶,解思江,焦阳,李晨.一种改进的启发式自适应DBSCAN聚类算法的研究及其在电力系统信息安全预警分析中的应用[J].电信科学,2017,33(S1):117-122. 被引量：5
8王瑞军,高春雷,周佳亮.边坡清筛机侧犁防碰撞技术研究与应用[J].铁道建筑,2018,58(3):95-98. 被引量：3
9秦晓飞,皮军强,李峰.基于极线约束的ORB特征匹配算法[J].计算机应用研究,2018,35(9):2865-2868. 被引量：13
10王身宁,孙发军,赵文秀,程俭廷.公路桥梁智能监测探究[J].工程技术研究,2019,4(18):100-101. 被引量：6

引证文献6

1尹成斐,刘尚昆,张世红,宋晓阳,刘传.轨道作业车周边异物侵线监测技术[J].铁道建筑,2022,62(8):46-48. 被引量：1
2李彦林,李艳,董绪琪.基于K-means聚类的WSN异常数据检测算法分析[J].中国科技投资,2022(27):107-109.
3叶凯,董建民,张丽君,王颖涵.基于点云分块的平均密度阈值点云滤波方法[J].佳木斯大学学报（自然科学版）,2023,41(1):21-24. 被引量：2
4郭波波,党建武,黄磊,王阳萍.联合密集多尺度特征的无人机公路遥感影像特征匹配[J].兰州交通大学学报,2023,42(2):64-70.
5谭志锋,姬联涛,荆岫岩,王璞,田海平.基于KD-Tree与DBSCAN的水电机组状态监测数据清洗方法[J].中国农村水利水电,2024(3):250-254.
6宣传伟,王吉飞,王亚博,李鑫,刘锦凡,孙阳.运载火箭跨音速气动阻尼数值分析[J].上海航天（中英文）,2024,41(4):44-50.

二级引证文献3

1黄豪亮,刘建春.结构件角焊缝表面参数检测算法研究[J].佳木斯大学学报（自然科学版）,2024,42(5):85-89.
2陈晓燕,王川,齐明杰,张宁,林晓龙,霍延强,刘世杰,田源.采用雷视融合方法的灌溉风险区异物入侵风险预警[J].山东大学学报（工学版）,2024,54(3):115-121.
3吴涉成,方炎林,陈超,李佳艺.基于改进点云数据的测绘工程地貌信息提取方法研究[J].测绘科学技术,2023,11(3):177-183.

1王喆.基于K-means聚类算法的章程文本数据安全智能检验分析系统设计[J].自动化与仪器仪表,2022(3):96-100. 被引量：6
2金先好.MapReduce模型在并行式计算机数据挖掘中的应用[J].景德镇学院学报,2021,36(6):114-116. 被引量：1
3李东,洪涛,张波涛.一种机器人的栅格-语义地图构建方法[J].杭州电子科技大学学报（自然科学版）,2022,42(2):21-26.
4李丰翔,赵岩.河湖“清四乱”调查中无人机影像的快速分类研究[J].智能城市,2022,8(2):13-15. 被引量：2
5戴洪德,张笑宇,刘伟,郭家豪,郑百东,吕游.基于改进K-means聚类的惯性行人导航零速检测算法[J].传感技术学报,2022,35(1):114-121. 被引量：1
6何冬健.微纳光纤技术实现类人触觉感知追寻“一束光”的潜力[J].今日科技,2022(3):52-54.
7党宏社,薛萌,郭琴.基于改进的YOLOv4绝缘子掉片故障检测方法[J].电瓷避雷器,2022(1):211-218. 被引量：13
8《传播与版权》杂志征稿启事[J].出版广角,2021(23).
9段友祥,张晓天.基于主动学习的SVM评论内容分类算法的研究[J].计算机与数字工程,2022,50(3):608-612. 被引量：6
10王熙,陈楠,傅维杰,刘宇.运动皮层和小脑的经颅电刺激对提升上肢运动能力的研究进展[J].医用生物力学,2021,36(S01):382-382.

智能计算机与应用

2021年第11期

浏览历史

内容加载中请稍等...

基于KD树的k-means聚类算法优化被引量：6

参考文献2

二级参考文献155

共引文献223

同被引文献50

引证文献6

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于KD树的k-means聚类算法优化 被引量：6

参考文献2

二级参考文献155

共引文献223

同被引文献50

引证文献6

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于KD树的k-means聚类算法优化被引量：6