基于改进关联聚类算法的网络异常数据挖掘被引量：19

Network abnormal data mining based on improved association clustering algorithm

在线阅读下载PDF

导出

摘要为解决传统关联聚类算法挖掘网络异常数据时间复杂度高、精确度不理想等问题,提出Spark-MML聚类算法。为Apriori关联规则算法设计并行化频繁项集挖掘环境,使用兴趣度约束与支持度自适应策略挖掘网络数据特征量强关联规则;利用可变网格的局部离群点检测算法剔除K-means聚类离群点,基于最大最小距离确定聚类中心及数值K,将网络数据分为异常和非异常。测试结果表明,该方法避免聚类中心选取陷入局部最优,降低了异常数据挖掘的时间复杂度,有效节约算法运行空间,是一种可靠的网络异常数据挖掘方法。 To solve the problems of high time complexity and unsatisfactory accuracy of traditional association clustering algorithm for mining abnormal network data,Spark-MML clustering algorithm was proposed.A parallelized frequent itemset mining environment for Apriori association rule algorithm was designed,interest degree constraint and support degree adaptive strategy were used to mine strong association rules of network data features.Variable grid local outlier detection algorithm was used to eliminate K-means clustering class outliers.Based on the maximum and minimum distances,the cluster center and the value K were determined to divide the network data into abnormal and non-abnormal.The test results show that the proposed method avoids the cluster center selection from falling into local optimum,reduces the time complexity of abnormal data mining,and effectively saves the algorithm running space.It is a reliable method for network abnormal data mining.

作者周燕肖莉 ZHOU Yan;XIAO Li(College of Mathematics and Information,South China Agricultural University,Guangzhou 510642,China)

机构地区华南农业大学数学与信息学院

出处《计算机工程与设计》北大核心 2023年第1期108-115,共8页 Computer Engineering and Design

基金国家社会科学基金面上基金项目(21BTJ057)。

关键词关联规则兴趣度离群点聚类频繁项集特征提取异常数据 association rules degree of interest outliers clustering frequent itemsets feature extraction abnormal data

分类号 TP393 [自动化与计算机技术—计算机应用技术]

作者简介周燕(1980-),女,广西桂林人,硕士,讲师,研究方向为金融统计和数据挖掘,E-mail:kexueyuandi200@163.com;肖莉(1976-),女,江西吉安人,硕士,副教授,研究方向为综合评价和数据挖掘。

引文网络
相关文献

参考文献25

1许磊,王建新.基于模糊神经网络的异常网络数据挖掘算法[J].计算机科学,2019,46(4):73-76. 被引量：19
2罗富财,吴飞,陈倩,何金栋,寇亮.基于机器学习的无线传感器网络入侵检测算法[J].哈尔滨工程大学学报,2020,41(3):433-440. 被引量：9
3杜佳颖,段隆振,段文影,卜秋瑾.基于Spark的改进K-means算法的并行实现[J].计算机应用研究,2020,37(2):434-436. 被引量：13
4解滨,董新玉,梁皓伟.基于三支动态阈值K-means聚类的入侵检测算法[J].郑州大学学报（理学版）,2020,52(2):64-70. 被引量：22
5杨光辉,封均康.基于改进IAA算法的网络入侵数据挖掘仿真[J].计算机仿真,2021,38(7):286-289. 被引量：5
6王婷,王娜,崔运鹏,李欢.基于半监督学习的无线网络攻击行为检测优化方法[J].计算机研究与发展,2020,57(4):791-802. 被引量：43
7孙学波,石飞达.基于Hadoop的Apriori算法研究与优化[J].计算机工程与设计,2018,39(1):126-133. 被引量：18
8瞿诗齐,刘少江,倪伟传,余庆茂.基于Hadoop平台的GPU集群加速Apriori算法[J].计算机工程,2018,44(11):14-18. 被引量：4
9廖纪勇,吴晟,刘爱莲.基于布尔矩阵约简的Apriori算法改进研究[J].计算机工程与科学,2019,41(12):2231-2238. 被引量：24
10陈勇,李胜男,张丽,鲁浩,戴志辉.基于改进Apriori算法的智能变电站二次设备缺陷关联性分析[J].电力系统保护与控制,2019,47(20):135-141. 被引量：47

二级参考文献174

1易彤,徐宝文,吴方君.一种基于FP树的挖掘关联规则的增量更新算法[J].计算机学报,2004,27(5):703-710. 被引量：32
2陈安龙,唐常杰,陶宏才,元昌安,谢方军.基于极大团和FP-Tree的挖掘关联规则的改进算法[J].软件学报,2004,15(8):1198-1207. 被引量：30
3吉根林,杨明,宋余庆,孙志挥.最大频繁项目集的快速更新[J].计算机学报,2005,28(1):128-135. 被引量：47
4田大新,刘衍珩,魏达.ARTNIDS:基于自适应谐振理论的网络入侵检测系统[J].计算机学报,2005,28(11):1882-1889. 被引量：8
5刘学军,徐宏炳,董逸生,钱江波,王永利.基于滑动窗口的数据流闭合频繁模式的挖掘[J].计算机研究与发展,2006,43(10):1738-1743. 被引量：26
6刘德喜,何炎祥,邢显黎.一种新的频繁项集挖掘算法[J].计算机应用研究,2007,24(2):17-19. 被引量：8
7马占欣,黄维通,陆玉昌.相关度计算方法存在的问题及修正[J].计算机工程,2007,33(11):67-69. 被引量：13
8陆林花,王波.一种改进的遗传聚类算法[J].计算机工程与应用,2007,43(21):170-172. 被引量：26
9王开军,李健,张军英,涂重阳.半监督的仿射传播聚类[J].计算机工程,2007,33(23):197-198. 被引量：29
10孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1083

共引文献387

1常凤,刘静,包浕,冯婷,胡忠旭.关联规则在乡村超市销售中的应用研究[J].昭通学院学报,2023,45(5):8-12. 被引量：1
2廖纪勇,吴晟,刘爱莲.一种基于邻接矩阵的频繁项集挖掘算法[J].数据通信,2020(6):30-34. 被引量：1
3谢悦,林建国,芦静.浓度对流扩散方程并行计算与MATLAB高效实现方法[J].计算机应用研究,2020,37(S01):143-146. 被引量：1
4曾勇,张纯姑.基于变异性和聚类分析的高校班级学困群体识别[J].中国多媒体与网络教学学报（电子版）,2020(31):118-120.
5廖国庆,吴文海,曾鑫鹏.YOLOv4与ORB深度融合的绝缘子识别定位研究[J].电子测量与仪器学报,2022,36(2):131-138. 被引量：6
6刘爱萍.基于数据挖掘技术的高校学生成绩预测模型构建[J].长春工程学院学报（自然科学版）,2020,21(2):98-101. 被引量：6
7贾澎涛,温滋.基于RS_Hash频繁项集的卫星载荷关联规则算法[J].国外电子测量技术,2023,42(2):9-15. 被引量：1
8刘念.四川浓香型白酒“五朵金花”制曲比较[J].酿酒科技,2000(2):25-27. 被引量：11
9於贤德.中国古代生态文化的思想源流[J].嘉兴高等专科学校学报,2000,13(1):9-14. 被引量：3
10齐丽花,张妮妮,秦晓梅.基于K-means的专利文本聚类分析[J].电脑知识与技术,2018,14(8):206-207. 被引量：8

同被引文献212

1冯宏祥,ANNA MujalColilles,杨忠振.基于距离分布的AIS异常数据处理方法[J].中国航海,2021,44(4):26-31. 被引量：11
2周金浛,于劲松,宋悦,梁思远.基于耦合自适应距离的高维异常检测算法[J].仪器仪表学报,2022,43(8):182-192.
3林文祥,刘德生.网络信息体系信息流程有效低频路径挖掘方法[J].计算机科学,2022,49(S02):335-340. 被引量：1
4李保明.技术机会与技术创新的决策[J].科学管理研究,1990,8(5):61-62. 被引量：24
5赵红州,蒋国华.科学计量学的历史和现状[J].科学学研究,1984,2(4):26-37. 被引量：31
6马费成.情报学的进展与深化[J].情报学报,1996,15(5):337-343. 被引量：81
7宋艺航,张会娟,谭忠富.跨区域电力资源供需均衡仿真的系统动力学模型[J].电网技术,2014,38(11):2986-2992. 被引量：5
8黄水源,段文影,陈桂香,胡苏阳.基于多支持度的增量式关联规则挖掘算法[J].南昌大学学报（理科版）,2015,39(2):139-142. 被引量：1
9任海英,于立婷,黄鲁成.基于链接预测的科学研究机会发现方法研究[J].情报杂志,2016,35(10):53-58. 被引量：13
10段树乔,潘艳,徐德生,张正华.基于非线性回归模型的中国电力需求、资源、环境分析[J].数学的实践与认识,2016,46(19):1-8. 被引量：4

引证文献19

1雷继尧.基于关联规则的数据挖掘算法在电商领域中的应用研究[J].信息与电脑,2023,35(16):73-75. 被引量：2
2李秀霞,邵作运.基于离群主题词跨学科组合的学术创新机会发现研究[J].情报理论与实践,2023,46(12):122-130.
3李国维,袁小龙,姜小宾,王豆,吴玉娃,俞佳雯,杨晓蓉.面向电厂关键设备故障知识图谱构建的关系抽取方法研究[J].电力大数据,2023,26(11):41-50. 被引量：3
4左文涛,胡必波,刘钟凌.Hadoop架构下数量关联规则的数据挖掘研究[J].信息记录材料,2023,24(11):210-212. 被引量：1
5赵贞.基于关联规则算法的电力企业财务信息异常数据智能挖掘方法[J].中国管理信息化,2024,27(5):79-81.
6雷中锋,徐秀,张艳菲,曲延庆,宋强,刘良.基于改进CURE聚类的运营商用户云数据挖掘方法[J].电脑编程技巧与维护,2024(4):62-64. 被引量：1
7刘云香,同军红,李穂丰,吴晓玲.小样本机器学习下数据多尺度挖掘算法设计[J].计算机仿真,2024,41(4):431-435. 被引量：1
8葛耀武.基于时间序列特征提取的网络传输信息云挖掘方法[J].电子设计工程,2024,32(12):171-175.
9陈天宇.基于人工智能的数字图书馆信息检索系统[J].信息技术,2024,48(7):173-179. 被引量：1
10朱华,乔勇进,董国钢.基于CART决策树的分布式数据离群点检测算法[J].现代电子技术,2024,47(16):157-162.

二级引证文献11

1文聪,郝杰,于丽君.基于Apriori算法的国企人力资源数据挖掘方法探析[J].数字技术与应用,2024,42(6):208-210. 被引量：2
2刘向阳,苏雨桐.基于机器学习的垃圾短信过滤识别研究[J].科技视界,2024,14(15):88-93.
3杜刃刃,范俊秋,袁龙,谢才科,宋达,罗希,谢威.基于注意力机制BiLSTM-CRF模型的电网故障处置知识图谱构建技术研究[J].电力大数据,2024,27(5):37-45. 被引量：2
4何超.基于关联规则的物联网海量数据分析系统研究[J].电大理工,2024(2):30-35.
5胡永焕,李俊颖,倪小舟,董凤娜.基于熵分析的电力物资关系图谱绘制[J].价值工程,2025,44(3):103-105.
6刘润嘉,陈浩宇.基于数据挖掘的新零售会员消费数据分析与研究[J].中阿科技论坛(中英文),2025(2):41-45.
7李燕红.基于大数据分析的数字图书馆信息检索模型设计[J].信息与电脑,2024,36(23):140-142.
8徐岩峰,裴志铭.设备诊断技术在火电厂设备检修管理中的运用[J].电力设备管理,2025(2):81-83.
9冀巧然.算法决策对电子商务隐私安全的影响研究[J].现代商业,2025(1):63-66.
10王宏星,玉荣娟.一种混合式5G网络标准化场景边界提取方法研究[J].广东通信技术,2025,45(2):44-48.

1张庆昌.基于人工智能的计算机网络异常数据挖掘方法[J].信息与电脑,2022,34(16):31-33. 被引量：3
2赵诚,陈嘉平,李春晓,陈迎新,贾克斌.基于随机抽样一致性算法的车辆轮胎点云提取方法[J].自动化技术与应用,2023,42(1):14-16. 被引量：1
3戴礼灿,代翔,崔莹,魏永超.基于深度集成学习的社交网络异常数据挖掘算法[J].吉林大学学报（工学版）,2022,52(11):2712-2717. 被引量：16
4徐平安,刘全.基于相似度约束的双策略蒸馏深度强化学习方法[J].计算机科学,2023,50(1):253-261. 被引量：1
5王文善,郭永存,刘普壮,杨豚,童佳乐.基于改进YOLOv3的输送带纵向撕裂多视角检测方法[J].合肥工业大学学报（自然科学版）,2023,46(1):28-35. 被引量：1
6吴宇鹏.爬虫技术和数据挖掘在网页信息中的应用[J].信息与电脑,2022,34(20):60-62. 被引量：1
7张欢.一种改进的自适应免疫遗传算法[J].工业控制计算机,2022,35(12):61-63. 被引量：1
8李琰,岳雪娇,陈侠君.矿工不安全行为特征的关联规则分析[J].煤矿安全,2022,53(12):247-252. 被引量：4
9徐超远,栗继祖,徐新华.煤矿监控调度作业疲劳程度分级与判定研究[J].煤矿安全,2022,53(12):253-258. 被引量：2
10王思晗,焦瑶,侯静怡,张海萍,厉松.下颌偏斜患者正颌手术前后第一至四颈椎三维位置变化的研究[J].中华口腔正畸学杂志,2022,29(4):209-213. 被引量：1

计算机工程与设计

2023年第1期

浏览历史

内容加载中请稍等...

基于改进关联聚类算法的网络异常数据挖掘被引量：19

参考文献25

二级参考文献174

共引文献387

同被引文献212

引证文献19

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于改进关联聚类算法的网络异常数据挖掘 被引量：19

参考文献25

二级参考文献174

共引文献387

同被引文献212

引证文献19

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于改进关联聚类算法的网络异常数据挖掘被引量：19