-
题名基于BERT与自编码器的概念漂移恶意软件分类优化
- 1
-
-
作者
赵浩钧
邹德清
薛文杰
吴月明
金海
-
机构
大数据技术与系统国家地方联合工程研究中心
服务计算技术与系统教育部重点实验室
大数据安全湖北省工程研究中心
集群与网格计算湖北省重点实验室
华中科技大学网络空间安全学院
school of computing and data science
华中科技大学计算机科学与技术学院
-
出处
《软件学报》
北大核心
2025年第8期3709-3725,共17页
-
基金
国家自然科学基金(62172168)。
-
文摘
软件概念漂移指同类型软件的软件结构和组成成分会随着时间的推移而改变.在恶意软件分类领域,发生概念漂移意味着同一家族的恶意样本的结构和组成特征会随时间发生变化,这会导致固定模式的恶意软件分类算法的性能会随时间推移而发生下降.现有的恶意软件静态分类研究方法在面临概念漂移场景时都会有显著的性能下降,因此难以满足实际应用的需求.针对这一问题,鉴于自然语言理解领域与二进制程序字节流分析领域的共性,基于BERT和自定义的自编码器架构提出一种高精度、鲁棒的恶意软件分类方法.该方法首先通过反汇编分析提取执行导向的恶意软件操作码序列,减少冗余信息;然后使用BERT理解序列的上下文语义并进行向量嵌入,有效地理解恶意软件的深层程序语义;再通过几何中位数子空间投影和瓶颈自编码器进行任务相关的有效特征筛选;最后通过全连接层构成的分类器输出分类结果.在普通场景和概念漂移场景中,通过与最先进的9种恶意软件分类方法进行对比实验验证所提方法的实际有效性.实验结果显示:所提方法在普通场景下的分类F1值达到99.49%,高于所有对比方法,且在概念漂移场景中的分类F1值比所有对比方法提高10.78%–43.71%.
-
关键词
恶意软件静态分析
概念漂移
鲁棒性优化
-
Keywords
malware static analysis
concept drift
robust optimization
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-