基于改进随机森林算法的钓鱼网站检测方法研究被引量：5

Research on Detection Methods of Phishing Websites Based on Improved Random Forest Algorithm

在线阅读下载PDF

导出

摘要为了更准确快捷的对钓鱼网站进行识别,提出了一种基于改进随机森林算法的钓鱼网站检测方法.该方法挖掘钓鱼网页特征之间潜在的关联规则,并对数据集进行分区,以此区分特征数据的重要程度并计算权重以及数据选取的比例,选取数据后对数据空间进行相应的集合化与剪辑以此优化森林的建立,并根据建立的森林达到对钓鱼网站检测识别的目的.最终实验说明,该方法对钓鱼网站的检测识别具有很好的效果和效率. In order to improve the efficiency of phishing detection,a new algorithm was proposed to improve the traditional random forest algorithm. Potential association rules between web features are mined and used to partition the data set,in order to distinguish the features of different structures and calculate the weight of different data space to determine the scale of the selection. After selection of data, training data sets need to be aggregated and clipped to optimize the establishment of forests. Websites are trained and predicted using voting in decision forest. Experiments result shows that the new algorithm has obvious advantages in efficiency and effectiveness compared with the other two algorithm.

作者朱琪林果园 ZHU Qi;LIN Guo-yuanh(School of computer science and technology, China University of Mining and Technology, XuZhou 221116, China;Mine Digitization Engineering Research Center of the Ministry of Education, XuZhou 221116, China;State Key laboratory for Novel Software Technology. Nanjing University, NanJing 210023 , China)

机构地区中国矿业大学计算机科学与技术学院矿山数字化教育部工程研究中心南京大学计算机软件新技术国家重点实验室

出处《微电子学与计算机》北大核心 2019年第4期43-46,51,共5页 Microelectronics & Computer

基金江苏省产学研前瞻性联合研究项目(BY2016026-04) 软件新技术国家重点实验室开放基金项目(KFKT2018B27)

关键词钓鱼检测关联规则特征分区数据空间 fishing detection association rules feature partition data space

分类号 TP182 [自动化与计算机技术—控制理论与控制工程]

作者简介朱琪,男,(1994-),硕士研究生.研究方向为云计算与信息安全.E-mail:747116218@qq.Com;林果园,男,(1975-).博士,副教授.研究方向为网络空间安全、移动互联及其安全、云计算及其安全、信息系统及其安全.

引文网络
相关文献

参考文献4

1王伟平,张兵.支持页面特征伪造识别的钓鱼网页检测方法[J].山东大学学报（理学版）,2014,49(9):90-96. 被引量：3
2王燕,王兴芬,任俊玲.面向钓鱼网站敏感特征项选取的IIGAIN算法[J].计算机应用与软件,2016,33(4):297-301. 被引量：5
3张茜,延志伟,李洪涛,耿光刚.网络钓鱼欺诈检测技术研究[J].网络与信息安全学报,2017,3(7):7-24. 被引量：13
4张维维,龚俭,刘茜,刘尚东,胡晓艳.基于词素特征的轻量级域名检测算法[J].软件学报,2016,27(9):2348-2364. 被引量：31

二级参考文献68

1徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
2金山网络.2012年度计算机病毒及钓鱼网站统计报告[EB/OL].[2014-04-15].http://www.ijinshan.com/news/safety-data-2.shtml.
3Google. Google safe browsing API[EB/OL].[2014-04-15].http://code.google.com/apis/safebrowsing/.
4PRAKASH P, KUMAR M, KOMPELLA R R, et al. PhishNet: predictive blacklisting to detect phishing attacks[C]//Proceedings of the IEEE INFOCOM. New York: IEEE, 2010:1-5.
5SHENG S, WARDMAN B, WARNER G, et al. An empirical analysis of phishing blacklists[C]//Proceedings of the 6th Conference on Email and Anti-Spam. CA, USA: CEAS, 2009.
6GARERA S, PROVOS N, CHEW M, et al. A framework for detection and measurement of phishing attacks[C]//Proceedings of the 2007 ACM Workshop on Recurring Malcode(WORM'07).New York: ACM Press, 2007: 1-8.
7BASNET R B, SUNG A H. Mining web to detect phishing URLs[C]//Proceedings of the 11th International Conference on Machine Learning and Applications (ICMLA 2012).Los Alamitos: IEEE Computer Society, 2012: 568-573.
8ZHANG Jianyi, WANG Yonghao. A real-time automatic detection of phishing URLs[C]//Proceedings of the 2nd International Conference on Computer Science and Network Technology (ICCSNT2012). Piscatawaty: IEEE, 2012: 1212-1216.
9CHEN Kuanta, JAU-YUAN C, HUANG Chunrong, et al. Fighting phishing with discriminative keypoint features[J]. Proceedings of IEEE Internet Computing, 2009, 13(3): 56-63.
10HARA M, YAMADA A, MIYAKE Y. Visual similarity-based phishing detection without victim site information[C]//IEEE Symposium on Computational Intelligence in Cyber Security (CICS'09). Piscataway: IEEE, 2009: 30-36.

共引文献48

1李泽慧,于志刚,王雪菲,赵雯雯.基于ASA架构的勒索病毒防护模型研究[J].信息网络安全,2020(S02):25-28. 被引量：7
2赵珂雨,陈婉莹.一种基于stacking集成学习的DGA域名检测方法[J].数据通信,2020(6):19-24.
3林思明,陈腾跃,梁煜麓.基于BiLstm神经网络的DGA域名检测方法[J].网络安全技术与应用,2019(1):15-17. 被引量：5
4陈伟东,朱建明.用户预防网络钓鱼的影响因素研究[J].计算机科学,2015,42(B10):42-47.
5胡向东,刘可,张峰,林家富,付俊,郭智慧.基于页面敏感特征的金融类钓鱼网页检测方法[J].网络与信息安全学报,2017,3(2):31-38. 被引量：8
6魏琴芳,李林乐,张峰,胡向东.一种安卓系统手机恶意软件链接串行联合检测方法[J].重庆邮电大学学报（自然科学版）,2017,29(2):251-256. 被引量：4
7赵科军,葛连升,秦丰林,洪晓光.基于word-hashing的DGA僵尸网络深度检测模型[J].东南大学学报（自然科学版）,2017,47(A01):30-33. 被引量：9
8张峰,胡向东,林家富,郭智慧,付俊,刘可.基于SVM的金融类钓鱼网页检测方法[J].重庆邮电大学学报（自然科学版）,2017,29(6):806-813. 被引量：2
9方滨兴.定义网络空间安全[J].网络与信息安全学报,2018,4(1):1-5. 被引量：66
10周梦源,常鹏,张永铮.互联网下多元属性特征恶意停靠域名检测仿真[J].计算机仿真,2018,35(2):406-409. 被引量：2

同被引文献37

1周飞燕,金林鹏,董军.卷积神经网络研究综述[J].计算机学报,2017,40(6):1229-1251. 被引量：1834
2黄亦睿,刘功申,孟魁,蔡逆水.多特征的网络钓鱼检测算法研究[J].计算机应用与软件,2018,35(5):264-268. 被引量：1
3何杰,朱美玲,胥月,刘汪洋,李旭阳,曾润喜.网络社会安全风险评估与治理研究——一项基于指标体系和安全数据的区域比较研究[J].情报杂志,2019,38(1):119-126. 被引量：22
4戴大治.输配电及用电工程线路安全运行的问题及其技术探讨[J].科学技术创新,2019(12):52-53. 被引量：8
5谢文旺,孙云莲,黄雅鑫.基于改进随机森林的电力线通信优化算法研究[J].电力系统保护与控制,2019,47(11):22-29. 被引量：13
6张迪,樊绍胜.基于YOLO V3的输电线路故障检测方法[J].自动化技术与应用,2019,38(7):125-129. 被引量：22
7余恩泽,努尔布力,于清.一种基于集成学习的钓鱼网站检测方法[J].计算机工程与应用,2019,55(18):81-88. 被引量：5
8周德红,李左,尹彬,许渊,伍蒙.基于随机森林的LNG场站泄漏风险评价模型研究[J].工业安全与环保,2019,45(11):10-13. 被引量：4
9钱真坤.网络安全态势感知框架及随机森林评估模型[J].西南师范大学学报（自然科学版）,2019,44(11):118-123. 被引量：16
10王鑫,唐作其,许硕.基于模糊理论和BRBPNN的信息安全风险评估[J].计算机仿真,2019,36(11):184-189. 被引量：17

引证文献5

1李雪.基于神经网络的钓鱼网站检测技术研究[J].安阳师范学院学报,2020(5):28-31.
2胡强,周杭霞,刘倩.一种基于BERT-Stacking的钓鱼网站检测方法[J].中国计量大学学报,2022,33(1):49-54. 被引量：2
3胡强,刘倩,周杭霞.基于改进Stacking策略的钓鱼网站检测研究[J].广西师范大学学报（自然科学版）,2022,40(3):132-140. 被引量：2
4饶强.基于随机森林算法的通信网络安全风险评估方法[J].自动化与仪器仪表,2022(11):189-193. 被引量：7
5黄长军.基于随机森林算法的输变电工程线路故障实时检测方法[J].计算机应用文摘,2023,39(19):120-123.

二级引证文献11

1李颖,吴增源,陈亮.基于ADASYN-LOF-RF模型的核心专利识别研究[J].中国计量大学学报,2022,33(4):609-616. 被引量：5
2胡栩榛,严天宏.基于改进Mask R-CNN的海参和海星的检测算法[J].中国计量大学学报,2023,34(1):34-43.
3吕艳.基于随机森林算法的上市公司财务舞弊分析[J].西安文理学院学报（自然科学版）,2023,26(3):13-16. 被引量：1
4姜言波,邵增珍.基于无监督自适应模糊聚类的多家族恶意域名细粒度检测[J].中国电子科学研究院学报,2023,18(7):663-670. 被引量：3
5贺艳,王贵平,闫述涛,杨朝锋.基于D-S证据理论的电力通信传输安全风险评估[J].长江信息通信,2023,36(11):188-190. 被引量：2
6苏杉,张冠珠,李国新,洒艳.基于贪心迭代算法的网络信息传输安全威胁动态识别方法[J].自动化与仪器仪表,2024(3):87-90. 被引量：3
7杜玉红,侯守明.基于边缘计算的光通信网络安全风险等级评估方法[J].激光杂志,2024,45(3):209-213. 被引量：2
8赵喆,李尚泽,王利军,白新红.多源数据融合下的电力系统数据传输数字化风险检测技术[J].自动化与仪器仪表,2024(6):203-207.
9蒋玥瑶.云计算环境下的网络安全风险分析与防护措施[J].信息与电脑,2024,36(16):148-150. 被引量：1
10张放.基于改进随机森林的半自动化产线制程能力评估研究[J].自动化应用,2024,65(23):25-27.

1仲涛,陈宝宝,张波.特厚煤层煤矸流场特征及矸石侵入效应研究[J].煤炭技术,2018,37(11):21-24.
2付剑亮.基因检测识别痴呆高危人群[J].家庭用药,2019,0(2):72-72.
3朴杨鹤然,任俊玲.基于Stacking的恶意网页集成检测方法[J].计算机应用,2019,39(4):1081-1088. 被引量：7
4刘姗姗.紧握渠道与车源车易拍优势已现[J].经营者,2018,32(7):54-55.
5张丰萍,冯晓然,邱国萍,王稻,陈清萍.残余肾功能对老年血液透析患者生存率的影响[J].江西医药,2019,54(3):255-257.
6吴双,胡伟,张林,刘欣宇.基于AI技术的电网关键稳定特征智能选择方法[J].中国电机工程学报,2019,39(1):14-21. 被引量：31
7赖雨盟.基于新型引力模型的国际贸易量实证研究分析[J].对外经贸,2019(1):31-34. 被引量：1
8张成成,李思成,王艳双,陈磊磊,张祎,许佳(指导).基于深度学习的人脸识别技术在课堂签到上的应用[J].时代汽车,2019,0(4):26-27.
9王彦翔,张艳,杨成娅,孟庆龙,尚静.基于深度学习的农作物病害图像识别技术进展[J].浙江农业学报,2019,31(4):669-676. 被引量：51
10陈婷,赵磊,崔立鲁.BDS/GPS组合导航仿真实验研究[J].测绘地理信息,2019,44(2):89-92. 被引量：2

微电子学与计算机

2019年第4期

浏览历史

内容加载中请稍等...

基于改进随机森林算法的钓鱼网站检测方法研究被引量：5

参考文献4

二级参考文献68

共引文献48

同被引文献37

引证文献5

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于改进随机森林算法的钓鱼网站检测方法研究 被引量：5

参考文献4

二级参考文献68

共引文献48

同被引文献37

引证文献5

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于改进随机森林算法的钓鱼网站检测方法研究被引量：5