-
题名基于深度学习的安全缺陷报告预测方法实证研究
被引量:10
- 1
-
-
作者
郑炜
陈军正
吴潇雪
陈翔
夏鑫
-
机构
西北工业大学软件学院
西北工业大学自动化学院
Faculty of Information Technology
南通大学信息科学技术学院
空天地海一体化大数据应用技术国家工程实验室(西北工业大学)
大数据存储与管理工业和信息化部重点实验室(西北工业大学)
-
出处
《软件学报》
EI
CSCD
北大核心
2020年第5期1294-1313,共20页
-
基金
陕西省工业科技攻关项目(2015GY073)
陕西省重点研发计划(2019GY-057)。
-
文摘
软件安全问题的发生在大多数情况下会造成非常严重的后果,及早发现安全问题,是预防安全事故的关键手段之一.安全缺陷报告预测可以辅助开发人员及早发现被测软件中潜藏的安全缺陷,从而尽早得以修复.然而,由于安全缺陷在实际项目中的数量较少,而且特征复杂(即安全缺陷类型繁多,不同类型安全缺陷特征差异性较大),这使得手工提取特征相对困难,并随后造成传统机器学习分类算法在安全缺陷报告预测性能方面存在一定的瓶颈.针对该问题,提出基于深度学习的安全缺陷报告预测方法,采用深度文本挖掘模型TextCNN和TextRNN构建安全缺陷报告预测模型;针对安全缺陷报告文本特征,使用Skip-Gram方式构建词嵌入矩阵,并借助注意力机制对TextRNN模型进行优化.所构建的模型在5个不同规模的安全缺陷报告数据集上展开了大规模实证研究,实证结果表明,深度学习模型在80%的实验案例中都优于传统机器学习分类算法,性能指标F1-score平均可提升0.258,在最好的情况下甚至可以提升0.535.此外,针对安全缺陷报告数据集存在的类不均衡问题,对不同采样方法进行了实证研究,并对结果进行了分析.
-
关键词
安全缺陷
安全缺陷报告预测
深度学习
文本挖掘
-
Keywords
security bug
security bug report prediction
deep learning
text mining
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-