一种非独立同分布下K-means算法的初始中心优化方法被引量：7

Initial Center Optimization Method of K-means Algorithm within Non-independent and Identically Distribution Context

在线阅读下载PDF

导出

摘要传统聚类算法研究都是在假设数据集的对象、属性等方面满足独立性且服从同一分布的基础上进行的.然而现实中的数据往往是非独立同分布的,即属性之间或多或少都会存在一些交互关系.传统K-means算法随机地选择初始聚类中心,对于中心点的选取比较敏感,容易陷入局部最优且准确率低. Min_max方法针对这一缺点进行了改进,但原始的和改进后的Kmeans算法都忽略了属性之间存在的交互关系.因此本文利用Pearson相关系数公式来计算属性之间的交互关系,并映射于原始数据集.同时利用双领域思想对Min_max方法进行了优化.实验结果表明该方法能够得到较高的准确率、较好的聚类效果以及相对较少的迭代次数. Traditional clustering algorithms studies are built on the basis of the assumption that the objects,attributes and other aspects of the data sets are independent and subject to the same distribution. However,data in reality are often non-independent and identically distributed,that is,there are more and less interactions between attributes. The traditional K-means algorithm randomly selects the initial clustering center,which is sensitive to the selection of the center point,easy to fall into the local optimal and low accuracy. Min_max method improves on this shortcoming,but both the original and improved K-means algorithms ignore the interaction between attributes.Therefore,this paper uses Pearson correlation coefficient formula to calculate the interactions between attributes and map these to the original data set. Meanwhile,the Min_max method is optimized with the idea of dual domain. Experimental results show that this method can achieve higher accuracy,better clustering effect and relatively fewer iterations.

作者潘品臣姜合吕奕锟 PAN Pin-chen;JIANG He;LV Yi-kun(School of Computer Science & Technology,Qilu University of Technology(Shandong Academy of Sciences),Jinan 250353,China)

机构地区齐鲁工业大学(山东省科学院)计算机科学与技术学院

出处《小型微型计算机系统》 CSCD 北大核心 2019年第6期1254-1259,共6页 Journal of Chinese Computer Systems

基金国家自然科学青年基金项目(61502259)资助

关键词非独立同分布 K-MEANS算法初始聚类中心 Pearson相关系数双领域思想 Non-IID K-means algorithm initial clustering center Pearson correlation coefficient dual domain

分类号 TP391 [自动化与计算机技术—计算机应用技术]

作者简介潘品臣,男,1994年生,硕士研究生,研究方向为数据挖掘技术;通讯作者:姜合,男,1964年生,硕士,教授,CCF会员,研究方向为数据挖掘技术、数据仓库技术,E-mail:jianghe09@126.com;吕奕锟,女,1993年生,硕士研究生,研究方向为数据挖掘技术.

引文网络
相关文献

参考文献7

1袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：155
2翟东海,鱼江,高飞,于磊,丁锋.最大距离法选取初始簇中心的K-means文本聚类算法的研究[J].计算机应用研究,2014,31(3):713-715. 被引量：109
3邢长征,谷浩.基于平均密度优化初始聚类中心的k-means算法[J].计算机工程与应用,2014,50(20):135-138. 被引量：32
4邹臣嵩,杨宇.基于最大距离积与最小距离和协同K聚类算法[J].计算机应用与软件,2018,35(5):297-301. 被引量：15
5唐东凯,王红梅,胡明,刘钢.优化初始聚类中心的改进K-means算法[J].小型微型计算机系统,2018,39(8):1819-1823. 被引量：35
6赖玉霞,刘建平.K-means算法的初始聚类中心的优化[J].计算机工程与应用,2008,44(10):147-149. 被引量：75
7熊忠阳,陈若田,张玉芳.一种有效的K-means聚类中心初始化方法[J].计算机应用研究,2011,28(11):4188-4190. 被引量：87

二级参考文献62

1荆丰伟,刘冀伟,王淑盛.改进的K-均值算法在岩相识别中的应用[J].微计算机信息,2004,20(7):41-42. 被引量：5
2袁方,孟增辉,于戈.对k-means聚类算法的改进[J].计算机工程与应用,2004,40(36):177-178. 被引量：48
3张惟皎,刘春煌,李芳玉.聚类质量的评价方法[J].计算机工程,2005,31(20):10-12. 被引量：61
4袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：155
5Guha S,Rastogi R,Shim K.Cure:an efficient clustering algorithm for large database[C]//Proc of ACM-SIGMOND lnt Conf Managemerit on Data, Seattle, Washington, 1998 . 73-84.
6Ester M,Kriegel H P,Sander J.A density-based algorithm tier discovering chlsters in large spatial databases with noise[C]//Proc 2nd Int Conf on Knowledge Discovery and Data Mining.Portland, 1999.20:226-231.
7彭京,杨冬青,唐世渭,付艳,蒋汉奎.一种基于语义内积空间模型的文本聚类算法[J].计算机学报,2007,30(8):1354-1363. 被引量：45
8孙士保,秦克云.改进的k-平均聚类算法研究[J].计算机工程,2007,33(13):200-201. 被引量：50
9HAN Jia-wei, MICHELINE K. Data mining concepts and techniques [ M]. 2nd ed. Singapore:Elsevier, 2006 : 383-419.
10周涓熊忠阳张玉芳.初始中心优化的K-means聚类算法.计算机科学,2006,26(6):1425-1426.

共引文献432

1赵春丽,王延博,万润之,孙丽平.基于R语言探析中医药治疗哮喘发作期的用药规律[J].世界科学技术-中医药现代化,2023,25(3):1011-1019. 被引量：6
2段桂芹,邹臣嵩.基于K-medoids算法的学生成绩聚类研究[J].微型电脑应用,2020,0(2):64-66. 被引量：1
3段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：1
4楼佳,王小华.一种分裂式的k-means聚类算法[J].杭州电子科技大学学报（自然科学版）,2009,29(4):54-57. 被引量：1
5高飞,鱼江,任芳,黄保瑞,次旺多吉.四维文档向量模型的k-means新闻文本聚类算法[J].西藏大学学报（社会科学版）,2013,28(4):109-112.
6鲁婧婧,张晋昕,袁向东,骆福添,古萍,张熙,薛允莲.欧氏距离的加权处理对K-means法聚类效果的改进[J].中国医院统计,2008,15(1):9-12. 被引量：1
7高燕飞,陈俊杰,强彦.自适应数据库中基于特征向量的聚类算法的研究与改进[J].电脑开发与应用,2008,21(7):57-58.
8强彦,陈俊杰,高燕飞.自适应数据库中基于特征向量的聚类算法[J].计算机工程与应用,2008,44(27):162-164. 被引量：2
9花海洋,赵怀慈.聚类算法在银行客户细分中的应用[J].计算机工程,2008,34(24):37-39. 被引量：5
10刘文远,杨丹丹,王宝文.IRP中基于聚类分析的主题数据库划分研究[J].情报杂志,2009,28(1):17-18. 被引量：2

同被引文献57

1杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：192
2冯征,阎敏,张智峰.一种基于PSO的模糊聚类算法[J].计算机工程与应用,2006,42(27):150-151. 被引量：9
3许磊,张凤鸣.基于PSO的模糊聚类算法[J].计算机工程与设计,2006,27(21):4128-4129. 被引量：17
4袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：155
5孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1083
6赖玉霞,刘建平.K-means算法的初始聚类中心的优化[J].计算机工程与应用,2008,44(10):147-149. 被引量：75
7熊忠阳,陈若田,张玉芳.一种有效的K-means聚类中心初始化方法[J].计算机应用研究,2011,28(11):4188-4190. 被引量：87
8李鑫,张继福,蔡江辉.一种基于大密度区域的模糊聚类算法[J].小型微型计算机系统,2012,33(6):1310-1315. 被引量：11
9张希翔,李陶深.数据缺失条件下基于启发式构元的多元回归分析方法[J].计算机应用,2012,32(8):2202-2204. 被引量：4
10张靖,段富.优化初始聚类中心的改进k-means算法[J].计算机工程与设计,2013,34(5):1691-1694. 被引量：56

引证文献7

1段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：1
2黄鹤翔,张健,王鸿亮,王帅,张晓星.基于3-KMBS的刀具磨损检测方法研究[J].组合机床与自动化加工技术,2020(10):90-93. 被引量：4
3相益萱,姜合,潘品臣,孙聪慧.二次幂耦合的K-means聚类算法研究[J].计算机工程与应用,2021,57(14):95-102. 被引量：6
4孙聪慧,姜合,相益萱.非独立同分布下数值型数据的KNN算法改进[J].计算机工程与设计,2021,42(10):2816-2822. 被引量：2
5朱峥瑜,宋燕.一种基于多重信息的不完全数据的模糊C均值聚类算法[J].小型微型计算机系统,2021,42(12):2545-2552. 被引量：10
6薛露宇,宋燕.一种具有缺失数据的无监督ReliefF特征选择算法[J].小型微型计算机系统,2023,44(7):1441-1448. 被引量：4
7张雪,王琳,赖佳,付淋淋,门博.校园送餐车的最佳行驶路线及取餐点位[J].科技经济导刊,2019,0(26):239-239. 被引量：1

二级引证文献28

1程凤伟,王文剑,张珍珍.面向高维小样本数据的层次子空间ReliefF特征选择算法[J].南京大学学报（自然科学版）,2023,59(6):928-936. 被引量：1
2杨其帆,周展,湛松扬,吴凡.基于聚类分析的室外配餐点选取模型[J].科学技术创新,2021(15):168-171.
3黄学雨,程世超.KNN优化的密度峰值聚类算法[J].通信技术,2021,54(7):1608-1618. 被引量：6
4何聪,王彦成,冯军,姜山,李兆阳.基于K-means聚类的通航协同空域规划算法设计和实现[J].西华大学学报（自然科学版）,2021,40(6):27-31. 被引量：1
5孙强,李一全,于占江,李成超,许金凯.Inception-ViT模型的微型铣刀磨损状态预测研究[J].工具技术,2022,56(1):3-8. 被引量：1
6刘礼平,胡昊,李颂,李子昂,朱学明,夏平锋.基于单视角图像处理的刀具磨损检测研究[J].机床与液压,2022,50(4):46-50. 被引量：7
7颜宁,钟瑶,李相俊,武中立.基于风险防御的退役动力电池递进式分选方法研究[J].太阳能学报,2022,43(5):525-532. 被引量：1
8殷理杰,张文初,魏丽君.一种周期信号波形识别及参数测量装置的设计[J].工业仪表与自动化装置,2022(4):28-32. 被引量：4
9程凤伟,常浩.面向非平衡数据的大间隔近邻Relief算法[J].山西大学学报（自然科学版）,2022,45(4):1014-1022. 被引量：1
10张雅茹.基于改进二分K-means算法的网络异常检测技术研究[J].鄂州大学学报,2022,29(6):97-99. 被引量：7

1韩冰,姜合.一种非独立同分布下针对数值型数据的PAM改进算法[J].齐鲁工业大学学报,2019,33(2):56-61.
2韩冰,姜合.基于相似度计算公式改进的K-中心点算法[J].计算机与现代化,2019(5):113-117. 被引量：2
3赵天星,王晓薇.基于K-means的新能源蓄电池数据的聚类分析[J].信息与电脑,2019,31(1):77-78. 被引量：2
4王庆燕,曹生让,陈秉岩,杨忠.基于谱峭度分析和粒子群Kmeans算法的高压断路器故障诊断研究[J].高压电器,2019,55(5):23-28. 被引量：13
5肖建云.对5G物联网中K-means算法辅助的小区休眠机制的分析[J].数码世界,2019,0(4):11-11.
6王辉,赵玮,祁薇.基于用户特征的K-means聚类算法应用与改进研究[J].电脑知识与技术,2018,14(12Z):17-19. 被引量：2
7郑宣传,魏运,秦勇,王铭铭,陈明钿,赵华伟.一种改进K-means模型的城市轨道交通突发事件分级方法[J].交通运输系统工程与信息,2019,19(3):134-140. 被引量：15
8程杉,苏高参.基于CAPSO的含分布式电源的配电网动态重构[J].电网与清洁能源,2018,34(12):27-33. 被引量：7
9滕寰宇,叶仁传,田阿利,赵元帅.基于平均条件超越率和插值法的风速极值预测[J].海岸工程,2018,37(4):29-34. 被引量：2
10刘宇,廉洪波,王炜.基于改进k-means和DE-ELM的配电网负荷预测研究[J].国外电子测量技术,2019,38(5):45-49. 被引量：22

小型微型计算机系统

2019年第6期

浏览历史

内容加载中请稍等...

一种非独立同分布下K-means算法的初始中心优化方法被引量：7

参考文献7

二级参考文献62

共引文献432

同被引文献57

引证文献7

二级引证文献28

相关作者

相关机构

相关主题

浏览历史

一种非独立同分布下K-means算法的初始中心优化方法 被引量：7

参考文献7

二级参考文献62

共引文献432

同被引文献57

引证文献7

二级引证文献28

相关作者

相关机构

相关主题

浏览历史

一种非独立同分布下K-means算法的初始中心优化方法被引量：7