一种基于仿射传播的增强型流聚类算法被引量：3

An Enhanced Stream Clustering Algorithm Based on Affinity Propagation

在线阅读下载PDF

导出

摘要针对目前流聚类算法无法有效处理数据流离群点的检测和处理,以及增量式数据流聚类效率较低等问题,提出了一种基于密度度量的异常检测、删除的增强型仿射传播流聚类算法。在仿射传播流聚类算法的基础上,所提算法通过引进异常检测和删除机制改善了异常点对聚类精度、聚类效率的影响。利用仿射传播聚类实现在线数据流的聚类过程,同时检测数据漂移现象,即数据流分布特征随时间发生变化,并采用基于密度度量的局部异常因子检测技术(LOF)对储备池数据进行异常检测和删除处理,通过对当前类簇和处理过的储备池数据重聚类来重建动态数据流模型。在真实网络数据(KDD’99)上进行了实验,结果表明,所提算法不仅减少了重聚类构建动态模型的次数,改善了聚类效率,而且在同时考虑聚类精度、纯度和熵3种聚类评价标准下,均优于传统的仿射传播流聚类算法。 Aiming at the problem that the traditional stream clustering algorithm cannot effectively deal with the inspection and treatment of outliers, and the incremental data stream clustering efficiency is low, an enhanced stream clustering algorithm based on affinity propagation using density measurement was proposed. Based on the STRAP, the proposed algorithm can improve the clustering accuracy and efficiency by introducing a mechanism for outlier detection and removal. Firstly, the online stream clustering process is realized by the affinity propagation algorithm. Meanwhile, the phenomenon of data drift is detected, i. e. , the distribution of data stream changes with time. In view of this phenomenon, the new algorithm can implement the outlier detection and removal in the reservoir based on local outlier factor, and then re-cluster the current cluster and the treated reservoir to reconstruct the dynamic stream clustering model. Finally, through the validation on the KDD＇ 99 data, the experimental results showed that the proposed algorithm not only reduces the number of re-clustering and improves the clustering efficiency, but also is superior to the STRAP in terms of the three clustering evaluation criteria, i. e. , the clustering accuracy, purity and entropy.

作者赵建龙曲桦赵季红蒋丁潮

机构地区西安交通大学软件学院西安交通大学电子与信息工程学院

出处《西安交通大学学报》 EI CAS CSCD 北大核心 2017年第3期105-110,共6页 Journal of Xi'an Jiaotong University

基金国家自然科学基金资助项目(61371087 61531013) 国家"863计划"资助项目(2015AA015702)

关键词流聚类仿射传播局部异常因子异常删除 stream clustering affinity propagation local outlier factor outlier removal

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

作者简介赵建龙（1992-），男，博士生；曲桦（通信作者），男，教授，博士生导师。

引文网络
相关文献

参考文献1

1王羡慧,覃征,张选平,高洪江.采用仿射传播的聚类集成算法[J].西安交通大学学报,2011,45(8):1-6. 被引量：10

二级参考文献19

1罗会兰,孔繁胜,李一啸.聚类集成中的差异性度量研究[J].计算机学报,2007,30(8):1315-1324. 被引量：36
2XU R, WUNSCH D. Survey of clustering algorithms [J].IEEE Transactions on Neural Networks, 2005, 16 (3):645-678.
3OMRAN M G H, ENGELBRECHT A P, SALMAN A. An overview of clustering methods[J]. Intelligent Data Analysis, 2007, 11 (6): 583-605.
4MACQUEEN J. Some methods for classification and analysis of multivariate observations[C]//Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability. Berkeley, California,USA: University of California Press, 1967: 281-297.
5FRED A, JAIN A. Combining multiple clusterings using evidence accumulation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27 (6) : 835-850.
6ZHOU Z H, TANG W. Clusterer ensemble [J ]. Knowledge-Based Systems, 2006, 19 (1): 77-83.
7STREHL A, GHOSH J. Cluster ensembles: a knowledge reuse framework for combining multiple partitions [J]. The Journal of Machine Learning Research, 2002 (3) : 583-617.
8FREY B J, DUECK D. Clustering by passing messages between data points [J]. Science, 2007, 315 (5814) : 972-976.
9FREY B J, DUECK D. Response to comment on "clustering by passing messages between data points" [J]. Science, 2008, 319 (5864): 2.
10MEZARD IVI. Computer science: where are the exemplars? [J]. Science, 2007, 315 (5814): 949-951.

共引文献9

1杨清宇,孙凤伟,张曌,张迪,庄健.利用测地线距离的改进谱聚类算法[J].西安交通大学学报,2012,46(8):1-7. 被引量：5
2苏亚然,牛习现.基于近邻传播的快速搜索聚类算法研究[J].华北电力大学学报（自然科学版）,2012,39(5):93-96. 被引量：2
3丁维龙,韩燕波,王菁,赵卓峰.时间滑动窗口上数据流极值聚集的空间优化[J].西安交通大学学报,2012,46(11):106-111. 被引量：1
4王丽敏,姬强,韩旭明,黄娜.基于奇异值分解的自适应近邻传播聚类算法[J].吉林大学学报（理学版）,2014,52(4):753-757. 被引量：5
5王燕,周建涛,李华.移动通信网中基于用户网络影响的社区发现算法[J].小型微型计算机系统,2015,36(1):39-43.
6毕凯,王晓丹,邢雅琼.基于模糊测度和证据理论的模糊聚类集成方法[J].控制与决策,2015,30(5):823-830. 被引量：17
7王平.基于AP聚类分析的学生成绩评价研究[J].微型电脑应用,2015,31(8):57-58. 被引量：3
8王琳,张永健,钟诗胜.基于近邻传播聚类的卫星典型构件典型工艺过程发现[J].计算机集成制造系统,2015,21(6):1469-1475.
9何明明,陈波.基于改进K-means算法的坝体保温效果时空聚类分区评价方法[J].水电能源科学,2020,38(6):63-66. 被引量：3

同被引文献35

1王海涛,曹存根,高颖.基于领域本体的半结构化文本知识自动获取方法的设计和实现[J].计算机学报,2005,28(12):2010-2018. 被引量：31
2秦长江,侯汉清.知识图谱——信息管理与知识管理的新领域[J].大学图书馆学报,2009,27(1):30-37. 被引量：300
3刘非凡,李长玲,魏绪秋.基于2-模网络和G-N社群聚类算法的潜在合作者研究——以国内图情领域的社会网络分析研究为例[J].情报理论与实践,2014,37(6):117-122. 被引量：16
4彭云,万常选,江腾蛟,刘德喜,刘喜平.一种词聚类LDA的商品特征提取算法[J].小型微型计算机系统,2015,36(7):1458-1463. 被引量：12
5邱均平,许畅.馆藏资源本体模型的语义相似度算法研究[J].图书馆研究,2015,45(3):1-7. 被引量：5
6刘春年,陈通.基于共词聚类的我国档案信息化研究结构、趋势分析[J].档案管理,2015,0(6):7-9. 被引量：8
7曹倩,赵一鸣.知识图谱的技术实现流程及相关应用[J].情报理论与实践,2015,38(12):127-132. 被引量：86
8钱扬,张金波,吴一阳.大型无线网络入侵安全风险等级评估[J].计算机仿真,2015,32(12):430-433. 被引量：2
9王艳博.图书馆学知识图谱分析[J].科技情报开发与经济,2015,28(21):84-86. 被引量：3
10刘三民,王忠群,刘涛,修宇.融合互近邻降噪的动态数据流分类研究[J].计算机科学与探索,2016,10(1):36-42. 被引量：5

引证文献3

1李保珍,苏菁.基于专家生成内容的领域知识图谱构建[J].情报科学,2018,36(10):13-19. 被引量：5
2张新淼.动态增量式数据流分类挖掘仿真研究[J].计算机仿真,2019,36(5):430-433.
3周志洪,马进,夏正敏,陈秀真.基于局部离群点检测的高频数据共现聚类算法[J].计算机仿真,2021,38(3):482-486. 被引量：8

二级引证文献13

1李泽中,齐晨旭,戎佳.多源知识融合的企业知识服务模型构建研究[J].情报科学,2022,40(12):56-62. 被引量：5
2邢萌,杨朝红,毕建权.军事领域知识图谱的构建及应用[J].指挥控制与仿真,2020,42(4):1-7. 被引量：26
3周晶,孙喜民,罗鹏.知识图谱在语义信息搜索准确率中的应用[J].计算机与数字工程,2020,48(6):1445-1449.
4张肃,许慧.基于知识图谱的企业知识服务模型构建研究[J].情报科学,2020,38(8):68-73. 被引量：11
5严嘉慧,张禄,高鑫,盛慧慧.基于聚类算法和孤立森林的企业用电画像行为分析[J].电子技术与软件工程,2021(7):179-180. 被引量：1
6周燕,肖莉.基于改进关联聚类算法的网络异常数据挖掘[J].计算机工程与设计,2023,44(1):108-115. 被引量：21
7麦英健.基于优化聚类的个性化内容推荐算法[J].微型电脑应用,2023,39(9):226-228.
8罗鸣,李盛阳,彭巍,周壮.基于深度卷积特征重构的井漏事故预测[J].计算机仿真,2023,40(7):82-88.
9锁彤佳,吕子璇,刘伟.基于文本挖掘构建肺癌风险症状搜索推荐库[J].计算机仿真,2023,40(12):378-384.
10史林军,戴滔,劳文洁,吴峰,林克曼,李杨,朱玲,黄锡芳.基于改进KNN算法的新能源发电单元运行状态识别[J].电力自动化设备,2024,44(5):65-72. 被引量：4

1朱牧,孟凡荣,周勇.基于仿射传播的有向网络聚类算法[J].计算机应用研究,2013,30(7):1950-1952. 被引量：4
2史加荣,杨威,魏宗田.基于非负稀疏表示的人脸识别[J].计算机工程与设计,2012,33(5):2002-2006. 被引量：2
3周绪川,蔡利平.基于局部异常因子的无监督学习集成异常检测[J].西南民族大学学报（自然科学版）,2012,38(3):444-448. 被引量：4
4陈静,王伟.一种基于局部异常因子(LOF)的k-means算法[J].电子测试,2016,27(6X):60-61. 被引量：1
5李循律,何钦铭.基于密度的异常检测算法在入侵检测系统中的应用[J].江南大学学报（自然科学版）,2006,5(5):543-546. 被引量：4
6王淑琴,李克彬,单继宏.面向生产设备实时监控的数据挖掘技术的研究[J].浙江科技学院学报,2005,17(4):264-267.
7雷晨曦,唐向红,李少波.断路器数据在线异常点检测算法研究[J].计算机应用研究,2014,31(6):1706-1709. 被引量：3
8王平.基于AP聚类分析的学生成绩评价研究[J].微型电脑应用,2015,31(8):57-58. 被引量：3
9吴海华,李绍滋,林达真,柯逍,曹冬林.基于新型聚类算法IncreaseK-Means的Blog相似度分析[J].厦门大学学报（自然科学版）,2009,48(2):194-197. 被引量：2
10林海娟,陈晓云.基于时间序列的AP-NN混合模型聚类[J].计算机工程与应用,2014,50(2):152-155. 被引量：1

西安交通大学学报

2017年第3期

浏览历史

内容加载中请稍等...

一种基于仿射传播的增强型流聚类算法被引量：3

参考文献1

二级参考文献19

共引文献9

同被引文献35

引证文献3

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

一种基于仿射传播的增强型流聚类算法 被引量：3

参考文献1

二级参考文献19

共引文献9

同被引文献35

引证文献3

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

一种基于仿射传播的增强型流聚类算法被引量：3