深度神经网络(DNN)极易受到对抗样本的影响,仅需向原始文本中添加细微的扰动即可诱导目标模型做出误判。研究对抗样本的生成不仅有利于提升模型的鲁棒性,还能推动DNN可解释性方面的工作。在中文对抗领域,现有的中文对抗样本生成方法大...深度神经网络(DNN)极易受到对抗样本的影响,仅需向原始文本中添加细微的扰动即可诱导目标模型做出误判。研究对抗样本的生成不仅有利于提升模型的鲁棒性,还能推动DNN可解释性方面的工作。在中文对抗领域,现有的中文对抗样本生成方法大多采用单一变换策略,仅考虑了部分汉语特征,并且忽视了攻击对上下文语境产生的影响。为了解决这些问题,提出一种基于启发式算法的中文对抗样本生成方法BSCA。通过全面分析表音文字和意音文字之间的差异,结合汉语的构字法、字音、字形、认知语言学等先验知识,设计可准确评估汉字差异的中文文本扰动策略。利用扰动策略构建对抗搜索空间,并运用改进的集束搜索算法对黑盒攻击过程进行优化。在严格限制扰动大小和语义偏移的情况下,BSCA能够自动选择不同的攻击策略,以适应不同场景需求。在多个自然语言处理(NLP)任务上分别对TextCNN、TextRNN和BERT(Bidirectional Encoder Representations from Transformers)模型进行实验,结果表明,BSCA具有较好的泛化能力,能使分类准确率至少降低63.84百分点,同时拥有比基线方法更低的攻击代价。展开更多
文摘深度神经网络(DNN)极易受到对抗样本的影响,仅需向原始文本中添加细微的扰动即可诱导目标模型做出误判。研究对抗样本的生成不仅有利于提升模型的鲁棒性,还能推动DNN可解释性方面的工作。在中文对抗领域,现有的中文对抗样本生成方法大多采用单一变换策略,仅考虑了部分汉语特征,并且忽视了攻击对上下文语境产生的影响。为了解决这些问题,提出一种基于启发式算法的中文对抗样本生成方法BSCA。通过全面分析表音文字和意音文字之间的差异,结合汉语的构字法、字音、字形、认知语言学等先验知识,设计可准确评估汉字差异的中文文本扰动策略。利用扰动策略构建对抗搜索空间,并运用改进的集束搜索算法对黑盒攻击过程进行优化。在严格限制扰动大小和语义偏移的情况下,BSCA能够自动选择不同的攻击策略,以适应不同场景需求。在多个自然语言处理(NLP)任务上分别对TextCNN、TextRNN和BERT(Bidirectional Encoder Representations from Transformers)模型进行实验,结果表明,BSCA具有较好的泛化能力,能使分类准确率至少降低63.84百分点,同时拥有比基线方法更低的攻击代价。