-
题名基于API序列和预训练模型的恶意软件检测
被引量:1
- 1
-
-
作者
窦建民
师智斌
于孟洋
霍帅
张舒娟
-
机构
中北大学计算机科学与技术学院
-
出处
《计算机工程与设计》
北大核心
2024年第4期974-981,共8页
-
基金
山西省基础研究计划基金项目(20210302123018)。
-
文摘
针对现有方法存在特征表达受限、无法捕获API序列全局语义信息,且恶意软件数据集通常包含大量无标注数据,无法直接进行有监督学习等问题,利用自然语言预训练模型技术,提出一种基于API调用序列和预训练模型的恶意软件检测方法。使用原始API序列构建分词器;基于BERT模型构建出动态掩码序列模型进行无监督学习的预训练,同时获取API序列的全局动态编码表示;使用该编码构造检测模型。实验结果表明,所提方法能有效检测出恶意软件。
-
关键词
恶意软件检测
预训练模型
无监督学习
动态掩码
软件调用序列
模型微调
编码表示
-
Keywords
malware detection
pre-trained model
unsupervised learning
dynamic mask
software call sequence
model fine-tuning
coded representation
-
分类号
TP309
[自动化与计算机技术—计算机系统结构]
-
-
题名基于词嵌入和特征融合的恶意软件检测研究
- 2
-
-
作者
师智斌
孙文琦
窦建民
于孟洋
-
机构
中北大学计算机科学与技术学院
公安部第三研究所
北方导航控制技术股份有限公司
-
出处
《信息安全研究》
北大核心
2025年第5期412-419,共8页
-
基金
信息网络安全公安部重点实验室(公安部第三研究所)开放课题(C23600-06)。
-
文摘
针对现有传统方法存在特征提取和表示受限、无法同时捕获API序列的空间语义特征和时序特征、无法捕获能决定目标任务的关键特征信息等问题,利用自然语言处理领域的词嵌入技术和多模型特征抽取以及特征融合技术,提出一种基于词嵌入和特征融合的恶意软件检测方法.首先使用自然语言处理领域的词嵌入技术对API序列编码,得到其语义特征编码表示;然后分别利用多重卷积网络和Bi-LSTM网络提取API序列的n-gram局部空间特征和时序特征;最后利用自注意力机制对捕获的特征进行关键位置信息的深度融合,通过刻画深层恶意行为特征实现分类任务.实验结果表明,在二分类任务中,该方法准确率达到94.79%,相较于传统机器学习方法平均提高了12.37%,比深度学习方法平均提高5.78%.在多分类任务中,该方法的准确率也达到91.95%,能够有效地提高对恶意软件的检测准确率.
-
关键词
恶意软件检测
软件调用序列
多重卷积网络
长短期记忆网络
特征融合
-
Keywords
malware detection
software call sequence
multiple convolutional networks
long short term memory network
feature fusion
-
分类号
TP309
[自动化与计算机技术—计算机系统结构]
-