基于多尺度注意力特征融合的恶意URL检测研究

Research on malicious URL detection based on multi-scaleattention feature fusion

在线阅读下载PDF

导出

摘要针对当前恶意URL检测模型在处理复杂结构和多样化字符组合的URL时,存在特征提取单一和检测精度不高的问题,提出了一种基于多尺度注意力特征融合的恶意URL检测模型。首先,采用Character Embeddings和DistilBERT方法分别对字符和单词进行编码,以捕获URL字符串中字符级和词级特征表示。其次,通过改进卷积神经网络(CNN)提取不同尺度的字符结构特征和词级语义特征,并结合双向长短期记忆网络(BiLSTM)进一步提取深层次序列特征。此外,为了实现字符级与词级多尺度特征的动态融合,创新性地引入注意力特征融合模块(AFF),有效降低信息冗余并提升对长距离序列特征的提取能力。实验结果表明,所提模型与其他基准模型相比,准确率提升了0.32%~4.7%,F1分数提升了0.46%~5.5%,并在ISCX-URL2016等数据集上也达到了较好的测效果。 To address the issues of single feature extraction and low detection accuracy in current malicious URL detection models when handling URLs with complex structures and diverse character combinations,this paper proposes a malicious URL detection model based on multi-scale attention feature fusion.First,Character Embeddings and DistilBERT are employed to encode characters and words separately,capturing both character-level and word-level feature representations in URL strings.Next,an improved convolutional neural network(CNN)is used to extract multi-scale character structural features and word-level semantic features,while a bidirectional long short-term memory(BiLSTM)network is employed to further extract deep sequence features.Additionally,an innovative attention feature fusion(AFF)module is introduced to dynamically fuse multi-scale features at both the character and word levels,effectively reducing information redundancy and enhancing the extraction of long-range sequence features.Experimental results show that the proposed model outperforms other baseline models,with accuracy improvements ranging from 0.32%to 4.7%and F1 score improvements from 0.46%to 5.5%,achieving excellent detection performance on datasets such as ISCX-URL2016.

作者马栋林陈伟杰赵宏宋佳佳 Ma Donglin;Chen Weijie;Zhao Hong;Song Jiajia(School of Computer Science and Communication,Lanzhou University of Technology,Lanzhou 730050,China)

机构地区兰州理工大学计算机与通信学院

出处《电子测量技术》北大核心 2024年第20期15-23,共9页 Electronic Measurement Technology

基金国家自然科学基金(62166025)项目资助。

关键词恶意URL检测多尺度特征卷积神经网络双向长短时记忆网络注意力特征融合 malicious URL detection multi-scale features convolutional neural network bidirectional long short-term memory network attention feature fusion

分类号 TN391 [电子电信—物理电子学]

作者简介马栋林,副教授,硕士生导师,主要研究方向为深度学习、网络信息安全等。E-mail:5920048690@qq.com;通信作者:陈伟杰,硕士研究生,主要研究方向为自然语言处理、网络安全。E-mail:2900373335@qq.com;赵宏,教授,博士生导师,主要研究方向为深度学习、自然语言处理、计算机视觉。宋佳佳,硕士研究生,主要研究方向为深度学习、说话人识别。

引文网络
相关文献

参考文献6

1卜佑军,张桥,陈博,张稣荣,王方玉.基于CNN和BiLSTM的钓鱼URL检测技术研究[J].郑州大学学报（工学版）,2021,42(6):14-20. 被引量：7
2周燕.基于GloVe模型和注意力机制Bi-LSTM的文本分类方法[J].电子测量技术,2022,45(7):42-47. 被引量：10
3吴森焱,罗熹,王伟平,覃岩.融合多种特征的恶意URL检测方法[J].软件学报,2021,32(9):2916-2934. 被引量：13
4何智帆,姜和芳,刘涛,姚兴博.基于机器学习与特征工程的恶意链接检测研究[J].科技风,2023(9):63-65. 被引量：2
5王媛媛,吴春江,刘启和,谭浩,周世杰.恶意域名检测研究与应用综述[J].计算机应用与软件,2019,36(9):310-316. 被引量：28
6陆向艳,刘峻.网络钓鱼攻击分析和防范探讨[J].数字通信世界,2022(1):179-181. 被引量：5

二级参考文献21

1殷水军,刘嘉勇,刘亮.针对Web-mail邮箱的跨站网络钓鱼攻击的研究[J].通信技术,2010,43(8):164-166. 被引量：16
2沙泓州,刘庆云,柳厅文,周舟,郭莉,方滨兴.恶意网页识别研究综述[J].计算机学报,2016,39(3):529-542. 被引量：40
3郭晓军.面向DGA类型Bot的命令控制通信过程研究[J].网络安全技术与应用,2017(8):48-49. 被引量：5
4赵科军,葛连升,秦丰林,洪晓光.基于word-hashing的DGA僵尸网络深度检测模型[J].东南大学学报（自然科学版）,2017,47(A01):30-33. 被引量：9
5张卫丰,刘蕊成,许蕾.基于动态行为分析的网页木马检测方法[J].软件学报,2018,29(5):1410-1421. 被引量：9
6杨睿,刘瑞军,师于茜,李善玺.面向智能交互的视觉问答研究综述[J].电子测量与仪器学报,2019,31(2):117-124. 被引量：11
7方勇,龙啸,黄诚,刘亮.基于LSTM与随机森林混合构架的钓鱼网站识别研究[J].工程科学与技术,2018,50(5):196-201. 被引量：6
8蓝雯飞,徐蔚,汪敦志,潘鹏程.基于LSTM-Attention的中文新闻文本分类[J].中南民族大学学报（自然科学版）,2018,37(3):129-133. 被引量：12
9叶雪梅,毛雪岷,夏锦春,王波.文本分类TF-IDF算法的改进研究[J].计算机工程与应用,2019,55(2):104-109. 被引量：119
10陈立皇,程华,房一泉.基于注意力机制的DGA域名检测算法[J].华东理工大学学报（自然科学版）,2019,45(3):478-485. 被引量：14

共引文献57

1罗海波,陈星池,董建虎.DGA域名检测方法选优方案[J].新一代信息技术,2020,3(8):10-16.
2吴警,芦天亮,杜彦辉.基于Char-RNN改进模型的恶意域名训练数据生成技术[J].信息网络安全,2020(9):6-11. 被引量：9
3杨林海.基于网络层的DDoS攻击模型与安全防御策略研究[J].网络空间安全,2020,11(10):44-52. 被引量：5
4周琳娜,吕欣一.基于SVM的DGA家族分类方法研究[J].中国科技论文,2020,15(11):1328-1333. 被引量：3
5罗海波,陈星池,董建虎.基于DGA域名检测方法的选优方案研究[J].新一代信息技术,2021,4(8):36-42.
6姜天,匡立伟.基于fastText的恶意域名分类方法[J].电子设计工程,2021,29(17):35-39. 被引量：3
7陈晓军,姚浩浩,王月领,左苗.基于DNS日志的恶意域名态势预警研究[J].信息技术与信息化,2021(7):99-101. 被引量：1
8戴云伟,沈春苗.一种高效的DNS重定向实现方法[J].通信技术,2021,54(9):2150-2156.
9马骁,蔡满春,芦天亮.基于CNN改进模型的恶意域名训练数据生成技术[J].信息网络安全,2021(10):69-75. 被引量：2
10席一帆,汪洋,张钰.基于域名词间关系的字典型恶意域名检测方法[J].信息安全研究,2022,8(2):129-134. 被引量：1

1《南京中医药大学学报(社会科学版)》文后参考文献编排格式[J].南京中医药大学学报（社会科学版）,2024,25(6).
2陈孝然,曹宇星,胡小勇.数字化转型视野下教师网络集体研修行为投入的效能识别[J].现代教育技术,2024,34(11):79-89.
3刘震,杨贤昭,陈洋,曾思航.基于改进YOLOv8s的雾天目标检测算法[J].电子测量技术,2024,47(20):186-194. 被引量：4
4余翔,靳闪闪,杨路.一种改进多尺度特征融合的交通标志识别算法[J].电讯技术,2024,64(12):1955-1962. 被引量：2
5张涵,王晶晶,罗佳敏,周国栋.针对低资源场景下连续情感分析任务的持续注意力建模[J].软件学报,2024,35(12):5470-5486. 被引量：1
6张颖.基于Self-Attention与Bi-LSTM的大学生情感倾向研究[J].软件导刊,2024,23(12):53-57.
7Huang Weijia,Yang Tingting.The character that tempts both joy and danger[J].The World of Chinese,2024(4):120-122.
8高嘉晗,张志伟,杨帆.基于注意力特征融合iAFFNet的路面破损检测[J].中国科技论文,2024,19(12):1321-1334.
9Roger Morris,Shiyong Wang.Building a pathway to One Health surveillance and response in Asian countries[J].Science in One Health,2024,3(1):25-34. 被引量：4
10Wei Qiu,Zhaoyuan Lu,Senmao Zhang,Shuanglong Li,Jian Chen,Wei Chen,Wei Li,Yanjie Ren,Jun Luo,Maohai Yao,Wen Xie.Effect of lanthanum oxide on microstructure and mechanical properties of ZK60 magnesium alloy[J].Journal of Rare Earths,2024,42(12):2270-2278.

电子测量技术

2024年第20期

浏览历史

内容加载中请稍等...

基于多尺度注意力特征融合的恶意URL检测研究

参考文献6

二级参考文献21

共引文献57

相关作者

相关机构

相关主题

浏览历史