-
题名基于可解释性的不可见后门攻击研究
- 1
-
-
作者
郑嘉熙
陈伟
尹萍
张怡婷
-
机构
南京邮电大学计算机学院、软件学院、网络空间安全学院
-
出处
《信息安全研究》
北大核心
2025年第1期21-27,共7页
-
基金
江苏省重点研发项目(BE2022065-5)
江苏省网络与信息安全重点实验室项目(BM2003201)。
-
文摘
深度学习在各种关键任务上取得了显著的成功.然而,最近的研究表明,深度神经网络很容易受到后门攻击,攻击者释放出对良性样本行为正常的反向模型,但将任何触发器施加的样本错误地分类到目标标签上.与对抗性样本不同,后门攻击主要实施在模型训练阶段,用触发器干扰样本,并向模型中注入后门,提出了一种基于可解释性算法的不可见后门攻击方法.与现有的任意设置触发掩膜的工作不同,精心设计了一个基于可解释性的触发掩膜确定,并采用最新型的随机像素扰动作为触发器样式设计,使触发器施加的样本更自然和难以察觉,用以规避人眼的检测,以及对后门攻击的防御策略.通过在CIFAR-10,CIFAR-100和ImageNet数据集上进行了大量的对比实验证明该攻击的有效性和优越性.还使用SSIM指数评估所设计的后门样本与良性样本之间的差异,得到了接近0.99的评估指标,证明了生成的后门样本在目视检查下是无法识别的.最后还证明了攻击的抗防御性,可以抵御现有的后门防御方法.
-
关键词
深度学习
深度神经网络
后门攻击
触发器
可解释性
后门样本
-
Keywords
deep learning
deep neural network
backdoor attack
trigger
interpretability
backdoor sample
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-