-
题名结合图像显著性区域的局部动态干净标签后门攻击
- 1
-
-
作者
洪维
耿沛霖
王弘宇
张雪芹
顾春华
-
机构
华东理工大学信息科学与工程学院
上海市计算机软件评测重点实验室
-
出处
《计算机科学与探索》
北大核心
2025年第8期2229-2240,共12页
-
基金
国家社会科学基金重大项目(23&ZD142)
上海市计算机软件评测重点实验室开放课题(SSTL2023_03)
上海市基础研究特区计划项目(22TQ1400100-16)。
-
文摘
随着深度学习技术的广泛应用,针对深度学习模型的后门攻击也越来越多。研究后门攻击对揭示人工智能领域存在的安全隐患具有重要意义。为改进现有干净标签后门攻击方法在实际场景下可行性较低、隐蔽性不够高、攻击效果不佳等问题,提出了一种结合图像显著性区域的局部动态干净标签后门攻击方法。在仅掌握少量目标类数据的前提下,该方法引入代理模型训练方法,并通过隐式语义数据增广(ISDA)在训练阶段增加样本多样性。利用小批量随机梯度下降(MBSGD)优化算法生成与目标类相匹配的扰动,并设计特征分离正则化(FDR)方法,扩大中毒图像特征与干净图像特征的差异,从而提高攻击的有效性。为了增强攻击的隐蔽性和鲁棒性,采用Grad-CAM算法提取输入图像的显著性区域,将扰动限制在这些关键像素上,使生成的中毒样本触发器具有局部动态性。实验结果表明,所提方法在不超过0.05%的低中毒率下,攻击性能仍能超过目前一些先进的干净标签攻击方法,对现有防御模型仍然具备威胁性。
-
关键词
深度学习
后门攻击
干净标签攻击
显著性区域
特征分离
-
Keywords
deep learning
backdoor attack
clean-label attack
saliency regions
feature disentanglement
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
TP183
[自动化与计算机技术—控制理论与控制工程]
-