-
题名基于局部梯度平滑的解释鲁棒性对抗训练方法
被引量:1
- 1
-
-
作者
陈自刚
潘鼎
冷涛
朱海华
陈龙
周由胜
-
机构
重庆邮电大学网络空间安全监测与治理重庆市重点实验室
四川警察学院智能警务四川省重点实验室
重庆邮电大学网络空间大数据智能安全教育部重点实验室
-
出处
《计算机科学》
北大核心
2025年第2期374-379,共6页
-
基金
国家自然科学基金(62272076)
智能警务四川省重点实验室开放基金重点项目(ZNJW2022KFZD002)。
-
文摘
深度学习可解释性在发展的同时,也面临着安全性方面的巨大挑战。模型对输入数据的解释结果存在被恶意操纵攻击的风险,此攻击严重限制了可解释性技术的应用场景并阻碍了人类对模型的探索与认知。针对此问题,提出一种使用模型梯度作为相似性约束的解释鲁棒性对抗训练方法。首先,沿解释方向采样生成对抗训练数据;其次,结合训练过程中样本的梯度信息来计算采样数据解释之间的多种相似性指标,用以对模型正则化,平滑模型的曲率;最后,为验证所提出的解释鲁棒性对抗训练方法的有效性,在多个数据集和解释方法上进行验证,实验结果表明,所提方法在防御对抗解释样本上具有显著效果。
-
关键词
深度学习
可解释性
对抗攻击
对抗训练
对抗样本
-
Keywords
Deep learning
Interpretability
Adversarial attack
Adversarial training
Adversarial samples
-
分类号
TP309
[自动化与计算机技术—计算机系统结构]
-