基于汇编指令词向量与卷积神经网络的恶意代码分类方法研究被引量：15

Malware Classification Method Based on Word Vector of Assembly Instruction and CNN

在线阅读下载PDF

导出

摘要针对目前恶意代码分类方法使用特征集过于依赖专家经验,以及特征维度较高导致的高复杂度问题,文章提出了一种基于汇编指令词向量与卷积神经网络(Convolutional Neural Network,CNN)的恶意代码分类方法。文章首先逆向恶意代码可执行文件获取汇编代码,将其中的汇编指令看作词,函数看作句子,从而将一个恶意代码转换为一个文档,然后对每个文档使用Word2Vec算法获取汇编指令的词向量,最后依据在训练样本集中统计的Top100汇编指令序列,将每个文档转换成一个矩阵。使用CNN在训练样本集上训练分类模型,结果表明该方法的平均准确率为98.56%。 In view of the fact that the features used in the current malware classification method are too dependent on expert experience and high complexity problems caused by high feature dimensions,this paper proposes a classification based on word vector of assembly instruction and Convolutional Neural Network(CNN).This paper considers the assembly code file of the executable malware sample as a document,in which the assembly instruction is treated as a word,thereby converting a sample into a document,and using Word2 Vec method for each document to calculate the word vector of different instructions on the document.Each sample is then converted into a matrix based on the Top100 assembly instruction sequence counted in the training sample set.Finally,CNN is used to train the classification model on the training sample set.The experimental evaluations shows that the average accuracy of the method is 98.56%.

作者乔延臣姜青山古亮吴晓明 QIAO Yanchen;JIANG Qingshan;GU Liang;WU Xiaoming(Shenzhen Institutes of Advanced Technology,Chinese Academy of Science,Shenzhen Guangdong 518000,China;Sangfor Technologies Inc,Shenzhen Guangdong 518000,China;Unit 31436 of PLA,Shenyang Liaoning 110001,China)

机构地区中国科学院深圳先进技术研究院深信服科技股份有限公司 [

出处《信息网络安全》 CSCD 北大核心 2019年第4期20-28,共9页 Netinfo Security

基金国家自然科学基金[U1401258]

关键词恶意代码分类方法 Word2Vec CNN malware classification Word2Vec CNN

分类号 TP309 [自动化与计算机技术—计算机系统结构]

作者简介通信作者:乔延臣(1988—),男,山东,助理研究员,博士,主要研究方向为网络安全、恶意代码,yc.qiao@siat.ac.cn;姜青山(1962-),男,河北,研究员,博士,主要研究方向为网络安全、数据挖掘、大数据分析与应用;古亮(1982-),男,四川,高级工程师,博士,主要研究方向为网络安全、云计算;吴晓明(1959-),男,辽宁,硕士,主要研究方向为通信网络管理、计算机通信及计算机网络管理。

引文网络
相关文献

同被引文献85

1章乐,朱娅霖.自然语言中词汇的信息获取:改进的skip-gram模型[J].北京电子科技学院学报,2020(2):19-26. 被引量：1
2杨轶,苏璞睿,应凌云,冯登国.基于行为依赖特征的恶意代码相似性比较方法[J].软件学报,2011,22(10):2438-2453. 被引量：21
3姚新磊,庞建民,岳峰,余勇.基于API依赖关系的代码相似度分析[J].计算机工程,2013,39(1):80-84. 被引量：2
4刘亮,刘露平,何帅,刘嘉勇.一种基于多特征的恶意代码家族静态标注方法[J].信息安全研究,2018,4(4):322-328. 被引量：4
5文伟平,梅瑞,宁戈,汪亮亮.Android恶意软件检测技术分析和应用研究[J].通信学报,2014,35(8):78-85. 被引量：41
6韩晓光,曲武,姚宣霞,郭长友,周芳.基于纹理指纹的恶意代码变种检测方法研究[J].通信学报,2014,35(8):125-136. 被引量：58
7桑基韬,路冬媛,徐常胜.基于共同用户的跨网络分析:社交媒体大数据中的多源问题[J].科学通报,2014,59(36):3554-3560. 被引量：12
8周练.Word2vec的工作原理及应用探究[J].科技情报开发与经济,2015,28(2):145-148. 被引量：102
9李盟,贾晓启,王蕊,林东岱.一种恶意代码特征选取和建模方法[J].计算机应用与软件,2015,32(8):266-271. 被引量：13
10钱雨村,彭国军,王滢,梁玉.恶意代码同源性分析及家族聚类[J].计算机工程与应用,2015,51(18):76-81. 被引量：19

引证文献15

1瞿俊,顾刘军.基于朴素贝叶斯的安卓恶意软件检测研究[J].信息网络安全,2020(S01):27-30. 被引量：3
2钟红月,彭元康,刘浩因.基于Skip-Gram的恶意软件家族检测方法[J].办公自动化,2021,26(9):51-53. 被引量：1
3贾立鹏,王凤英,姜倩玉.基于多特征融合和集成学习的恶意代码检测研究[J].中国科技论文在线精品论文,2021(2):168-176. 被引量：1
4詹静,范雪,刘一帆,张茜.SEMBeF:一种基于分片循环神经网络的敏感高效的恶意代码行为检测框架[J].信息安全学报,2019,4(6):67-79. 被引量：4
5刘恒讯,艾中良.一种基于词向量的恶意代码分类模型[J].电子设计工程,2020,28(6):10-16. 被引量：4
6任益辰,肖达.基于程序双维度特征的恶意程序相似性分析[J].计算机工程与应用,2021,57(1):118-125. 被引量：3
7黎星宇.基于TextCNN的恶意源代码功能分类模型[J].现代计算机,2021,27(14):54-60.
8王栋,杨珂,玄佳兴,韩雨桐,廖会敏,魏博垚.基于一维卷积神经网络的恶意代码家族多分类方法研究[J].计算机应用与软件,2021,38(12):332-336. 被引量：8
9李豪,钱丽萍.恶意代码可视化检测技术研究综述[J].软件导刊,2022,21(5):9-16. 被引量：5
10刘家银,李馥娟,马卓,夏玲玲.基于多尺度卷积神经网络的恶意代码分类方法[J].信息网络安全,2022(10):31-38. 被引量：1

二级引证文献34

1孟庆春.基于N-gram特征的网络恶意代码分析方法[J].数字技术与应用,2020,38(3):49-50. 被引量：3
2刘岳,刘宝旭,赵子豪,刘潮歌,王晓茜,吴贤达.基于特征组合的Powershell恶意代码检测方法[J].信息安全学报,2021,6(1):40-53. 被引量：4
3许桂敏,张转.非法获取公民个人信息行为的智化、解读与规制——基于技术的多维面向[J].中国人民公安大学学报（社会科学版）,2020,36(6):130-142. 被引量：12
4黎星宇.基于TextCNN的恶意源代码功能分类模型[J].现代计算机,2021,27(14):54-60.
5路凯峰,杨溢龙,李智.一种基于BERT和DPCNN的Web服务分类方法[J].广西师范大学学报（自然科学版）,2021,39(6):87-98. 被引量：8
6金宪珊,季永炜,董冬伟.恶意程序发布检测平台的设计与实现[J].计算机时代,2021(12):37-40.
7王栋,杨珂,玄佳兴,韩雨桐,赵丽花,王旭仁.基于半监督生成对抗网络的恶意代码家族分类实现[J].计算机工程与科学,2022,44(5):826-833. 被引量：3
8才东阳.基于纹理特征的网络通信恶意代码检测方法[J].数字通信世界,2022(6):79-81.
9徐东,王雷,侍守创.基于模糊聚类算法的工业智能应用平台信息自动分类系统设计[J].电子设计工程,2022,30(14):161-164. 被引量：2
10仝鑫,金波,王靖亚,杨莹.一种面向Android恶意软件的多视角多任务学习检测方法[J].信息网络安全,2022(10):1-7. 被引量：1

1刘亚姝,王志海,严寒冰,侯跃然,来煜坤.抗混淆的恶意代码图像纹理特征描述方法[J].通信学报,2018,39(11):44-53. 被引量：9
2李涛,段斌,旷怡.“国标”三大原则导向的学习契约设计与实施[J].计算机工程与科学,2018,40(A01):89-93.
3漫谈网络安全[J].信息化建设,2019,0(2):52-53.
4徐国天.基于“关键函数”断点设置木马的逆向取证方法[J].中国刑警学院学报,2018(5):119-123. 被引量：3
5老万.对文档中的内容进行搜索[J].电脑爱好者,2019,0(2):59-59.
6贾凡.区域创新效率的空间集聚效应研究[J].时代金融,2019,0(7):59-60.
7傅骏,傅馨竹,郝文源,王杨,张峻宁,廖先强.基于Tkinter的百度AI图像识别技术二次开发实践[J].科技风,2019(9):69-69. 被引量：8
8吴重重.江苏省优秀足球教师特征研究——基于与一般足球教师的比较[J].体育科技,2019,40(1):154-156.
9贾建荣,方方,罗欢.视觉注意的时间结构和动态神经机制[J].生理学报,2019,71(1):1-10. 被引量：4
10张颖,张嘉琦,王真,江建慧.基于有界模型检测的门级软件自测试方法[J].同济大学学报（自然科学版）,2018,46(11):1575-1581.

信息网络安全

2019年第4期

浏览历史

内容加载中请稍等...

基于汇编指令词向量与卷积神经网络的恶意代码分类方法研究被引量：15

同被引文献85

引证文献15

二级引证文献34

相关作者

相关机构

相关主题

浏览历史

基于汇编指令词向量与卷积神经网络的恶意代码分类方法研究 被引量：15

同被引文献85

引证文献15

二级引证文献34

相关作者

相关机构

相关主题

浏览历史

基于汇编指令词向量与卷积神经网络的恶意代码分类方法研究被引量：15