数据质量聚类算法被引量：3

Clustering Data with Mass

导出

摘要在聚类算法中,聚类中心决定聚类的最终结果,而传统的分割聚类算法不能准确定位聚类中心。根据数据场提出了数据质量聚类中心的新概念,给出数据质量聚类算法,能够一次定位聚类中心,无需迭代,也无需预置聚类个数。7组对比实验表明,提出的方法能够准确定位聚类中心,获得良好的聚类结果和稳定性,优于传统的分割聚类算法和峰值密度聚类算法。 The clustering center has a great effect on the clustering result. In this paper, a new concept of the data mass is proposed. The mass of data represents one of the inherent attributes of the data. With different view angles of data mining, the data mass maybe different. Based on the concept of data mass, a new clustering algorithm, which is clustering data with mass, is put forward. This new algorithm finds the clustering centers based on two attributes of data: the data mass and the data distance. And it can complete the clustering process with only one pass of the whole dataset. Experimental results show that the proposed algorithm can find the clustering center accurately and can get better clustering result than the same typical clustering algorithms, such as K-means, K-medoids and clustering by fast search and find of density peaks.

作者李延王大魁耿晶王树良 LI Yan;WANG Dakui;GENG Jing;WANG Shuliang(School of Software,Beijing Institute of Technology,Beijing 100081,China;Institute of Information Engineering,Chinese Academy of Sciences,Beljing 100093,China)

机构地区北京理工大学软件学院中国科学院信息工程研究所

出处《武汉大学学报（信息科学版）》 EI CSCD 北大核心 2019年第1期153-158,共6页 Geomatics and Information Science of Wuhan University

基金国家自然科学基金(61472039) 高等学校博士学科点专项科研基金(20121101110036)~~

关键词数据场聚类数据质量聚类中心 data field cluster data mass clustering center

分类号 P208 [天文地球—地图制图学与地理信息工程]

作者简介李延,博士生,主要从事数据挖掘方面的研究。liy_007@126.com;通讯作者:王树良,博士,教授。slwang2011@bit.edu.cn.

引文网络
相关文献

参考文献1

1WANG Shuliang,WANG Dakui,LI Caoyuan,LI Yan,DING Gangyi.Clustering by Fast Search and Find of Density Peaks with Data Field[J].Chinese Journal of Electronics,2016,25(3):397-402. 被引量：64

二级参考文献25

1A. Rodriguez and A. Laio, "Clustering by fast search and find of density peaks", Science, Voi.344, No.6191, pp.1492-1496, 2014.
2United Nations Global Pulse, Big Data for Development: Chal- lenges & Opportunities, http://unglobalpulse.org/, 2012.
3C. Seife, "Big data: The revolution is digitized", Nature, Vol.518, pp.480-481, 2014.
4L. Einav and J. Levin, "Economics in the age of big data", Science, Vol.346, No.6210, pp.715, 2014.
5E.E. Schadt, M.D. Linderman, J. Sorenson, L. Lee and G.P. Nolan, "Computational solutions to large-scale data manage- ment and analysis", Nature Reviews Genetics, Vol.ll, pp.647- 657, 2010.
6S.L. Wang, W.Y. Gan, D.Y. Li and D.R. Li, "Data field for hierarchical clustering", International Journal of Data Ware- housing and Mining, Vol.7, No.2, pp.43-63, 2011.
7A. Rajaraman and J.D. Ullman, Mining of Massive Datasets, Cambridge University Press, London, UK, 2011.
8R. Xu and D. Wunsch, "Survey of clustering algorithms", IEEE Transactions on Neural Networks, Vol.16, No.3, pp.645-678, 2005.
9C.C. Aggarwal and C.K. Reddy, Data Clustering: Algorithms and Applications, CRC Press, New York, USA, 2014.
10D.R. Li, S.L. Wang, D.Y. Li, Spatial Data Mining Theories and Applications (second edition), Science Press, Beijing, China, 2013.

共引文献63

1陆小莉,刘强,徐生霞.中国产业转型升级的空间分异与影响机制研究[J].经济问题探索,2021(2):135-144. 被引量：7
2WANG Shuliang,LI Qi,YUAN Hanning,GENG Jing,DAI Tianru,DENG Chenwei.Robust Clustering with Topological Graph Partition[J].Chinese Journal of Electronics,2019,28(1):76-84. 被引量：2
3Ziling Pang,Guoyin Wang,Jie Yang.A Multi-granularity Decomposition Mechanism of Complex Tasks Based on Density Peaks[J].Big Data Mining and Analytics,2018,1(3):245-256. 被引量：3
4陶辉.基于密度峰值选取聚类中心的优化[J].内江科技,2016,37(10):31-33. 被引量：1
5魏梦洋,刘力铭,李耀华,王永,王飞.服务于预测评价的风功率出力模式聚类研究[J].电力建设,2017,38(6):108-115.
6杨洁,王国胤,庞紫玲.密度峰值聚类相关问题的研究[J].南京大学学报（自然科学版）,2017,53(4):791-801. 被引量：12
7许家楠,张桂珠.基于数据场的数据势能竞争与K-means融合的聚类算法[J].计算机应用与软件,2017,34(12):266-272. 被引量：2
8陈晓方,钱荧灿,王雅琳,阳春华.基于主元导数特征聚类的加氢裂化动态调整区间识别[J].清华大学学报（自然科学版）,2018,58(1):81-86.
9李晔,陈奕延,张淑芬.基于密度峰值的混合型数据聚类算法设计[J].计算机应用,2018,38(2):483-490. 被引量：6
10李普煌,李敏,范新南,张学武.迭代分析相对密度的高光谱异常检测[J].中国图象图形学报,2018,23(2):219-228. 被引量：5

同被引文献31

1李德毅,孟海军,史雪梅.隶属云和隶属云发生器[J].计算机研究与发展,1995,32(6):15-20. 被引量：1309
2王振强,戴虹,吕其兵,谭克利.无缝线路钢轨现场焊接质量研究[J].铁道建筑,2005,45(8):76-80. 被引量：10
3淦文燕,李德毅,王建民.一种基于数据场的层次聚类方法[J].电子学报,2006,34(2):258-262. 被引量：83
4刘桂花,宋承祥,刘弘.云发生器的软件实现[J].计算机应用研究,2007,24(1):46-48. 被引量：66
5高文会.钢轨闪光焊接头平直度控制技术[J].铁道建筑,2010,50(9):103-107. 被引量：25
6赵葆昶,彭世蕤,郁春来,孙经蛟.基于相参特性的雷达信号分选中“增批”问题研究[J].现代防御技术,2011,39(4):70-74. 被引量：10
7高彦嵩.浅析钢轨厂内固定闪光焊接质量控制关键环节[J].金属加工（热加工）,2011(16):39-40. 被引量：5
8王宏志,梁志宇,李建中,高宏.工业大数据分析综述:模型与算法[J].大数据,2018,4(5):62-79. 被引量：21
9毛善君,夏良,陈华州.基于安全生产的智能煤矿管控系统[J].煤矿安全,2018,49(12):102-107. 被引量：36
10尹颖,林庆,林涵阳.HDFS中高效存储小文件的方法[J].计算机工程与设计,2015,36(2):406-409. 被引量：10

引证文献3

1尹延华,杨林,付梅.工业大数据技术助力煤矿安全生产管控初探[J].煤炭加工与综合利用,2019,0(6):122-125. 被引量：2
2杨海山,张勇.基于神经网络的钢轨焊接工序焊接参数的聚类分析[J].电工技术,2020(20):133-135.
3国强,李明松,周凯.基于势距图与改进云模型的多模雷达分选[J].吉林大学学报（工学版）,2022,52(8):1904-1911. 被引量：3

二级引证文献5

1王凯.大数据时代下的煤矿国企云会计应用[J].中小企业管理与科技,2020(7):157-158. 被引量：1
2王洪权,赵青山,孙学峰.数据中台在煤矿重大灾害预警中的应用[J].山东煤炭科技,2021,39(2):179-181. 被引量：1
3赵楠,赵荣珍.面向不平衡数据的云模型旋转机械故障识别方法[J].振动与冲击,2022,41(22):70-77. 被引量：5
4陈韬伟,马一鸣,余益民,刘建业.基于复杂网络的雷达辐射源信号脉内特征提取算法[J].现代雷达,2023,45(10):36-43. 被引量：1
5王祥,陈发达,吴贤国,冯宗宝,陈虹宇.基于云模型和D-S证据理论的岩溶盾构隧道掌子面稳定性评价[J].工业建筑,2023,53(11):65-72. 被引量：2

1王海,郑正扬,蔡英凤,陈龙.基于四线激光雷达的无人车障碍物检测算法[J].中国机械工程,2018,29(15):1884-1889. 被引量：7
2羊大立,张铁民,王继红,燕春晓,彭鸿雁.海口上空中高层大气强烈的突发钠层观测[J].空间科学学报,2018,38(6):886-890. 被引量：3
3李春雪,谢林森,卢诚波.面向不平衡数据集的一种基于聚类的欠采样方法[J].数学的实践与认识,2019,49(1):203-209. 被引量：11
4尤锭军,余嘉宽,徐政,杨春梅,林敏,吴志.基于改进K-均值的面向风光海的配电网典型运行场景生成[J].电器与能效管理技术,2019(1):25-32. 被引量：4

武汉大学学报（信息科学版）

2019年第1期

浏览历史

内容加载中请稍等...

数据质量聚类算法被引量：3

参考文献1

二级参考文献25

共引文献63

同被引文献31

引证文献3

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

数据质量聚类算法 被引量：3

参考文献1

二级参考文献25

共引文献63

同被引文献31

引证文献3

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

数据质量聚类算法被引量：3