高被引Top1团队综述：Adversarial Attacks and Defenses in Images, Graphs and Text: A Review【论文翻译...

时间：2022-09-20 10:00:00 sick传感器数字量

? ? ?深度神经网络(DNN)逐渐取代传统模型，成为机器学习中最热门的工具，已成功应用于计算机视觉、自然语言处理等领域。然而，最近的研究表明，对抗样本很容易攻击深度模型。稍微扰动模型的输入，可能会导致模型给出完全相反的预测结果，导致差距和数千英里的错误。从此，对深度模型对抗样本的鲁棒性研究成为机器学习的热门话题之一。
4月，IJAC密歇根州立大学在最新一期发表Anil K. Jain团队和Jiliang Tang 密歇根州立大学团队合作带来的特别评论Xu Han博士。本文总结并讨论了与对抗样本及其应对策略相关的研究，系统全面地总结了图像、图形和文本领域的前沿算法，总结了对抗攻击和防御(adversarial attacks and defenses)主要技术和成果。
文章下载地址：https://link.springer.com/article/10.1007/s11633-019-1211-x
摘要：深度神经网络（DNN）机器学习任务在各个领域都取得了前所未有的成功。然而，对抗样本的存在引起了我们对将深度学习应用于安全关键应用程序的担忧。因此，我们目睹了对不同数据类型(如图像、图形和文本)的研究DNN对模型的攻击和防御机制越来越感兴趣。因此，有必要系统全面地总结攻击的主要威胁和相应对策的成功。在本文中，我们回顾了三种最流行的数据类型(包括图像、图形和文本)对抗样本的最新算法以及对抗样本的对策。

1.介绍

? ? ?深度神经网络（DNN）在许多机器学习任务中变得越来越流行和成功。它们已部署在图像、图形、文本和语音领域的各种识别问题中，并取得了显著的成功。在图像识别领域，它们能够以接近人类水平的精度识别物体[1、2]。它们还用于语音识别[3]、自然语言处理[4]和游戏[5]。
由于这些成就，深度学习技术也应用于安全关键任务。例如，在自动驾驶汽车中，深度卷积神经网络（CNN）用于识别道路标志[6]。这里使用的机器学习技术要求高度准确、稳定、可靠。但是，如果CNN如果模型无法识别路边的停车标志，车辆继续行驶怎么办？这将是危险的情况。同样，在金融欺诈检测系统中，公司经常使用图卷积网络（GCN）确定客户是否可靠。欺诈者伪装个人身份信息以逃避公司的发现，将给公司造成巨大损失。因此，深度神经网络的安全问题已成为主要问题。
近年来，许多工作[2、8、9]表明DNN模型容易受到对抗性例子的攻击。可正式定义为：专家示例是攻击者故意设计的机器学习模型输入，导致模型错误。在图像分类领域，这些对抗的例子是故意合成的图像，看起来几乎与原始图像相同（见图1），但误导分类器提供错误的预测输出。对于MNIST训练有素的数据集DNN图像分类器，几乎所有的数字样本都可能被添加到原始图像中的不可察觉的干扰攻击。同时，在其他涉及图形、文本或音频的应用领域也存在类似的对抗攻击方案，使深度学习模型混乱。例如，只干扰几个边缘会误导图神经网络[10]，而将错别字插入句子可能会愚弄文本分类或对话系统[11]。因此，在所有应用领域都有对抗性例，提醒研究人员不要直接使用安全关键机器学习任务DNN。
为了应对对抗样本的威胁，应对对抗样本的威胁，旨在寻找保护深度神经网络的对策。这些方法大致可以分为三种主要类型：1）梯度掩蔽[12、13]：由于大多数攻击算法都是基于分类器的梯度信息，因此掩盖或混淆梯度会混淆攻击机制。 2)鲁棒优化[14，15]:这些研究表明，如何训练鲁棒分类器可以正确应对对抗性的例子。 3)对手检测[16，17]:在将样本提供给深度学习模型之前，试着检查样本是良性还是有害。它可以被视为一种防止对抗性示例的方法。这些方法得到了改进DNN抵抗对抗示例。
除安全可靠外DNN除了模型，研究对抗性示例及其对策也有助于我们理解DNN的性质并因此对其进行改进。例如，对抗性干扰在人眼中是无法区分的，但它可以避免DNN的检测。这表明DNN与人类推理不符的预测方法。作品[9，18]来解释和解释DNN对抗示例的存在可以帮助我们对抗DNN对模型有更多的了解。
本文旨在总结和讨论对抗性例子及其对策的主要研究。我们系统地总结了图像、图形和文本域的最新算法，总结了主要技术以及对攻击和防御的贡献。
本次调查的主要结构如下：在第二节中，我们介绍了对抗性攻击及其防御中经常使用的一些重要定义和概念。它还给出了攻击和防御类型的基本分类方法。在第三节和第四节，我们讨论了图像分类场景中的主要攻击和防御技术。我们用第五节简要介绍一些试图解释对抗性例子的研究。第六节和第七节分别回顾了图形和文本数据的研究。

2.定义和符号

本节简要介绍了模型攻击和防御的关键组成部分。我们希望我们的解释能帮助观众理解对抗攻击的主要内容和对策。通过回答以下问题，我们定义了主要术语：
1）对手的目标(第二).1.1节）
攻击者的目标或目的是什么？是误导分类器对样品的决策，还是影响分类器的整体性能？
2)对手的知识(二).1.攻击者能得到什么信息？他知道分类器的结构、参数或训练集吗？
3)受害者模型(第二).1.3)对手通常攻击哪种深度学习模式？为什么对手对攻击这些模型感兴趣？
四、安全评估(二).面对对抗性示例，我们如何评估受害者模型的安全性？这些安全指标与其他模型优度指标(如准确性或风险)有什么区别？

2.1 威胁模型

2.1.1 对手的目标

1)中毒攻击和逃避攻击
中毒攻击是指允许攻击者DNN在算法训练数据库中插入/修改几个假样本的攻击算法。
这些假样本可能会导致训练有素的分类器失败。它们可能会导致精度差[19]，或者对某些给定的测试样本进行错误的预测[10]。这种类型的攻击经常发生在攻击者可以访问训练数据库的情况下。例如，基于Web存储库和蜜罐通常收集恶意软件示例进行训练，为攻击者提供毒害数据的机会。
分类器固定在逃避攻击中，通常在良性测试样本中具有良好的性能。
对手无权更改分类器或其参数，但会制作一些分类器无法识别的假样本。换句话说，对手生成了一些欺诈性示例，以逃避分类器的检测。例如，在自动驾驶汽车中，在停车标志上粘贴一些胶带会混淆车辆的道路标志识别器[20]。
2）目标攻击和非目标攻击
在有目标的攻击中给出受害者样本(x，y)时，x是特征向量，y对手的目标是诱导分类器进行干扰样本x提供特定标签t。例如，欺诈者可能会攻击金融公司的信用评估模型，从而伪装成高度可信的客户。如果受害者样本没有指定目标标签t，攻击称为非目标攻击。对手只想错误地预测分类器。

2.1.2 Adversary′s knowledge

白盒攻击
对手可以访问目标神经网络的所有信息，包括其系统结构、参数、梯度等。对手可以充分利用网络信息精心制作对抗样本。由于模型结构和参数的公开，白盒攻击得到了广泛的研究，帮助人们清楚地理解DNN模型的弱点可以数学分析，就像Tramer等人[21]说，白盒攻击的安全性是我们希望机器学习（ML）模型的特点。

2）黑盒攻击
在黑盒攻击设置中，DNN模型的内部配置是无法获得的，攻击者只能提供输入数据并查询模型的输出。它们通常使用模型的输入输出关系来攻击模型，并通过将样本喂入盒子并观察输出来识别它们的弱点。黑盒攻击在应用程序中比白盒攻击更实用，因为模型设计师通常专有原因不开源模型参数。
3)半白盒攻击
在半白盒攻击或灰盒攻击环境中，攻击者训练一个生成模型，在白盒环境中生成对抗样本。攻击者一旦训练生成模型，就不再需要受害者模型，而是可以在黑盒环境中制作对抗样本。

2.1.3 受害者模型

我们简要总结了一些流行的深度学习一些流行的深度学习架构中，我们简要总结了易于对抗样本攻击的机器学习模型。在我们的评论中，我们主要讨论深度神经网络对抗样本的研究。
1）传统的机器学习模型
研究安全问题对传统的机器学习工具有着悠久的历史。 Biggio等人[22] 攻击支持向量机（SVM）分类器和MNIST全连接数据集FC浅层神经网络。Barreno等人[23] 基于贝叶斯方法的垃圾邮件检测软件SpamBayes的安全性。在[24]中，检查朴素贝叶斯分类器的安全性。许多这些想法和策略已被用于深度神经网络的对抗攻击研究。
2）深度神经网络
传统的机器学习计数不同于需要领域知识和手动特征工程，DNN是端到端的学习算法。模型直接使用原始数据作为模型的输入，并学习对象的基本结构和属性。DNN端到端结构使对手能够轻松利用其弱点，生成高质量的欺骗性输入(对抗样本)。此外，由于DNN其某些属性尚未被很好地理解或解释。因此，有必要进行研究DNN模型安全问题。接下来，我们将简要介绍一些在攻击/防御研究中被用作基准模型的受害者深度学习模型。
a）神经网络完全连接
全连接的神经网络由人工神经元层组成。在每一层中，神经元都从上一层获取输入，使用激活功能对其进行处理，然后将其发送到下一层；第一层输入为sample x，最后一层的（softmax）输出为score F(x)。可形成一层完全连接的神经网络

需要注意的是，反向传播算法有助于计算，这使得梯度下降对学习参数有效，反向传播算法有助于在对抗学习中计算，代表输出对输入变化的反应。该术语广泛应用于生成对抗样本。

b) 卷积神经网络
在计算机视觉任务中，NN是使用最广泛的模型之一。CNN模型聚合图像中的局部特征，以学习图像对象的表示形式。CNN可以视为全连接神经网络的稀疏版本，层以层之间的大多数权重为0，它的训练算法和梯度计算也可以完全从全连接的神经网络继承。
c) 图卷积网络
Kipf和Welling [7]引入的图卷积网络的工作成为流行的图数据节点分类模型。图卷积网络的概念类似于CNN：它将来自邻居节点的信息进行汇总，以学习每个节点的表示形式，并输出分数F(v,X)进行预测：

其中x表示输入图的特征矩阵，A^取决于图度矩阵和领接矩阵。
d) 循环神经网络
循环神经网络对于处理顺序数据非常有用。结果，它们被广泛用于自然语言处理中。 RNN模型，特别是基于长期短期记忆的模型（LSTM）[4]，能够将先前的时间信息存储在存储器中，并利用先前序列中的有用信息进行下一步预测。

2.2 安全性评估

我们还需要评估模型对对抗样本的抵抗力。 “鲁棒性”和“对抗风险”是用于描述DNN模型对单个样本和全部样本的抵抗力的两个术语。

2.2.1 鲁棒性

定义1.最小扰动：给定F的数据(x,y)，对抗性扰动的范数最小（最不明显的扰动）

定义2.鲁棒性：最小扰动的准则

定义3，全局鲁棒性，整个样本对鲁棒性的期望：
最小扰动可以找到与该模型F下与x最相似的对抗样本。因此r(x,F)或者rou(F)越大，攻击者就需要牺牲更多相似性来生成对抗样本，意味着分类器F更可靠更安全。

2.2.2 对抗风险(loss)

定义4，最具对抗性的样本
定义5，对抗损失
定义6，全局对抗损失。

2.2.3 对抗风险与风险

对抗风险的定义来自于分类风险，

2.3 符号

3 生成对抗样本

在本节中，我们介绍了在图像分类领域中生成对抗样本的主要方法。
在图像领域中研究对抗样本被认为是必不可少的，因为：1）伪图像和良性图像之间的感知相似性对观察者而言是直观的，并且2）图像数据和图像分类器的结构比其他域（如图形或音频）更简单。因此，许多研究将攻击图像分类器作为标准案例。在本节中，我们假设图像分类器是指全连接的神经网络和卷积神经网络[1]。这些研究中使用的最常见的数据集包括1）手写字母图像数据集MNIST，2）CIFAR10对象数据集和3）ImageNet [29]。接下来我们介绍一些主要方法，这些方法用来生成针对逃避攻击（白盒、黑盒、灰盒、）的对抗图像样本和投毒攻击（插入或修改某些训练样本）。

3.1 白盒攻击

通常，在白盒攻击环境中，将分类器C（模型F）和受害者样本(x,y)提供给攻击者时，他的目标是合成在感知上与原始图像x相似的伪图像x‘，但是这可能会误导分类器C给出错误的预测结果。可以表示为满足：

3.1.1 Biggio′s attack

在MNIST数据集上，以SVMs及三层FC为目标，通过优化判别式函数（最小化）来误导分类器实现攻击。

3.1.2 BFGS (L-BFGS) attack

搜索最小失真的对抗样本x'
目标函数：
引入近似的损失函数：
在此问题的优化目标中，第一项关注x’和x的相似性，第二项鼓励找到x’使得标签t的损失值较小，所以分类器C更可能预测x‘为t，通过不断更改常数c的值，可以发现与x有着最小距离的x’，同时误导分类器C。

3.1.3 快速梯度符号法FGSM

一步法快速生成对抗样本， FGSM 算法既可以进行目标攻击，也可进行无目标攻击。

3.1.4 deep fool

在数据点x周围学习一个分类器决策边界，找到一个可以使x超过决策边界的路径：

　　计算样本x0到决策边界的正交向量，并按照向量移动样本x0，直到x0’分类错误。
　　DeepFool实验表明，对于通常的DNN图像分类模型，几乎所有的测试样本都非常接近他们的决策边界，如LeNet超过90%的样本可以被小的扰动(l的无穷范数小于0.1)所攻击。
　　Deepfool为了能够使得分类器模型产生误识别的最小扰动，deepfool算法每次迭代都计算当前样本和各决策边界的距离，然后选择向最近的决策边界迭代生成扰动。Deepfool算法能生成L0、L2、和L∞三种范数距离的对抗样本。

3.2 物理世界攻击

先前引入的所有攻击方法均以数字方式应用，在此情况下，对手将输入图像直接提供给机器学习模型。但是，在某些情况下（例如使用摄像头，麦克风或其他传感器接收信号作为输入的情况）并非总是如此。在这种情况下，我们仍然可以通过生成物理世界的对抗对象来攻击这些系统吗？最近的工作表明确实存在这种攻击。例如，工作[20]在路标上贴了贴纸，这些贴纸会严重威胁自动驾驶汽车的标志识别器。这些对抗对象对于深度学习模型更具破坏性，因为它们可以直接挑战DNN的许多实际应用，例如人脸识别，自动驾驶汽车等。

3.2.1 探索物理世界中的对抗样本

在工作[15]中，作者通过检查生成的对抗图像（FGSM，BIM）在自然变换（例如改变角度，照明等）下是否“健壮”，探索了制作物理对抗对象的可行性。在这里，“稳健”是指制作的图像在转换后仍保持对抗性。
为了应用转换，他们打印出了精心制作的图像，并让测试对象使用手机拍摄这些打印输出的照片。在此过程中，不受拍摄角度或光照环境的限制，因此，获取的照片将转换为先前生成的对抗示例的样本。实验结果表明，变换后，这些对抗性示例中的很大一部分，尤其是那些由FGSM生成的对抗性示例，仍然对分类器具有对抗性。这些结果表明存在物理对抗性物体的可能性，这些物体可能会欺骗不同环境下的传感器。

3.2.2 对路标的Eykholt′s attack

如图5所示，工作[20]通过“污染”路标来误导路标识别器，从而制作出物理对抗对象。他们通过将贴纸贴在停车牌上所需的位置来实现攻击。
作者的方法包含：（1）实施基于L1范数的攻击在路标的数字图像上大致找到需要扰动的区域。L1攻击会产生稀疏的扰动，这有助于找到攻击的位置。这些区域将在以后称为粘贴位置。（2）专注于在步骤一中找到的区域没使用基于L2范数的攻击来生成贴纸的颜色。（3）输出步骤1和2中发现的扰动，然后将其粘贴在路标上，扰动的停车标志会从任何距离和角度混淆自动驾驶汽车。

3.2.3 Athalye′s 3D adversarial object

在工作[47]中，作者报告了成功制作出物理3D对抗对象的第一项工作。如图6所示，作者使用3D打印来制造“对抗性”乌龟。为了实现他们的目标，他们实施了3D渲染技术。给定带纹理的3D对象，它们首先优化对象的纹理，以使渲染图像从任何角度来看都是对抗性的。在此过程中，他们还确保扰动在不同环境下保持对抗性：相机距离，光照条件，旋转和背景。找到3D渲染的扰动后，他们打印3D对象的实例。

3.3 黑盒攻击

3.3.1 替代模型

在攻击者无法访问分类器的参数或训练集（黑盒）的情况下，这项工作[48]首次引入了一种有效的算法来攻击DNN分类器。攻击者只能输入x以从分类器获取输出标签y。另外，对手可能仅具有以下方面的部分知识：1）分类器的数据域（例如，手写数字，照片，人脸）和2）分类器的体系结构（例如，CNN，RNN）。
作者[48]利用了对抗样本的“可传递性”（第5.3节）性质：样本x’可以攻击F1，也可能攻击F2，其结构与F1相似。因此，作者介绍了一种训练替代模型F’以模仿目标受害者分类器F的方法，然后通过攻击替代模型来F’制作对抗性示例。主要步骤如下：
1）合成替代训练集
制作一个副本训练集，例如，要攻击用于手写数字识别任务的受害者分类器，可以通过以下方式制作初始替代训练集：a）从测试集中获取样本，b）手工制作样本。

2）训练替代模型
将替代输入数据集X输入到受害者分类器中去获得他们的标签Y。选择一种替代DNN模型进行训练以得到F’。根据攻击者知识，选择的DNN应该具有与受害者模型相似的结构。

3）数据集扩充
扩充数据集（X，Y）并且迭代地重新训练替代模型。该程序有助于增加副本训练集的多向性并提高替代模型F’的准确性。
4）攻击该替代模型
利用先前介绍的攻击方法，例如FGSM攻击算法去攻击模型F’。产生的对抗样本同样很可能由于可转移性的性质而误导目标模型F。
我们应该选择哪种攻击算法来攻击替代模型呢？替代模型黑盒攻击的成功基于对抗样本的可转移属性。因此，在黑盒攻击中，我们选择具有高可转移性的攻击，例如FGSM，PGD和基于动量的迭代攻击。

5. 对抗样本存在性研究。

5.1 为什么存在对抗样本

Szegedy的L-BFGS攻击[8]等一些原始著作指出，对抗性示例的存在是由于DNN模型无法在数据的低概率空间中很好地推广这一事实。 泛化问题可能是由DNN模型结构的高度复杂性引起的。

然而，在工作[9]中，即使线性模型也容易受到对抗性攻击。此外，在工作[14]中，他们进行实验以表明增加模型容量将提高模型的鲁棒性。
通过研究模型的决策边界，可以了解对抗性样本的存在。对抗样本几乎总是接近自然训练模型的决策边界，这可能是因为决策边界太平摊，太弯曲或者不灵活。
因此研究对抗样本存在的原因很重要，可以知道我们设计更可靠的模型，并帮组我们理解现有的模型。

5.2 我们能建立一个最佳分类器吗?

许多最新的工作假设，可能无法构建最佳鲁棒的分类器。例如，研究[95]声称对抗样本是不可避免的，因为每个类别中的数据分布都没有很好地集中，这为对抗样本留下了空间。从这个角度来看，工作[96]声称要提高训练模型的鲁棒性，有必要收集更多的数据。此外，工作中的作者[25]建议，即使我们可以建立具有高鲁棒性的模型，也必须付出一定准确性的代价。

5.3 什么是可转移性

可传递性是对抗样本的关键属性之一。这意味着针对一个受害者模型而生成的对抗样本也极有可能误导其他模型。
一些研究工作比较了不同攻击算法之间的可传递性。在工作中[31]，作者声称在ImageNet中，在相同的扰动强度下，单步攻击（FGSM）比迭代攻击（BIM）更可能在模型之间传递。
可转移性的性质在黑匣子环境下的攻击技术中经常被利用[48]。如果将模型参数掩盖给攻击者，他们可以转向攻击其他替代模型并享受其生成样本的可传递性。如工作[87]中所述，防御方法也利用了可转移性的性质：由于模型A的对抗样本也可能是模型B的对抗样本，因此使用的对抗样本B进行的对抗训练将有助于防御A。

7、音频和文本数据中的对抗样本。

DNN在音频和文本领域的应用程序中也存在对抗样本。对手可以制作虚假的言论或虚假的句子，从而误导机器语言处理器。同时，针对音频/文本数据的深度学习模型已被广泛用于许多任务，例如Apple Siri和Amazon Echo。因此，对音频/文本数据领域对抗样本的研究也值得我们关注。
　　对于文本数据，输入的离散性使得对图像的基于梯度的攻击不再适用，并且迫使人们对文本的不同粒度（字符级，单词级，句子级等）进行离散扰动。在本节中，我们介绍针对不同任务攻击NLP体系结构的相关工作。

7.1 语音识别攻击

Carlini和Wagner [106]研究攻击了最新的语音转文本转录网络，例如DeepSpeech [107]。在他们的设置中，当给定任何语音波形x时，他们可以添加听不见的声音扰动a，使合成语音x+a被识别为任何目标所需短语。
在他们的攻击工作中，他们在任何时候都限制了最大分贝（dB）的增加的摄动噪声，以使音频失真不明显。而且，他们在音频攻击设置上继承了C＆W的攻击方法[34]

7.2 文本分类攻击

文本分类是自然语言处理中的主要任务之一。在文本分类中，该模型旨在理解句子并正确标记句子。例如，文本分类模型可以应用于IMDB数据集，以基于用户提供的评论来表征用户对电影的观点（正面或负面）。对抗性攻击的最新工作表明，文本分类器很容易被对手稍加修改文本的拼写，单词或结构而误导。

7.2.1攻击词嵌入

文献[108]考虑在词嵌入[109]上增加扰动，以欺骗LSTM [4]分类器。但是，此攻击仅考虑干扰单词嵌入，而不是原始输入句子本身。

7.2.2 处理单词，字母

HotFlip [11]工作考虑替换句子中的字母，以误导字符级文本分类器（每个字母都编码为向量）。例如，如图11所示，更改句子中的单个字母会更改模型对其主题的预测。攻击算法设法通过梯度信息找到最有影响力的字母替换来实现这一目标。这些对抗性的干扰可以被人类读者注意到，但它们不会改变文本的整体内容，也不会影响人类的判断。
工作[110]考虑在单词，短语级别上操纵受害者的句子。他们尝试添加，删除或修改句子中的单词和短语。在他们的方法中，第一步类似于HotFlip [11]。对于每个训练样本，他们会找到最有影响力的字母，称为“热门人物”。然后，他们将具有3个以上“热门字符”的单词标记为“热门单词”。 “热门单词”组合为“热门短语”，是句子中最有影响力的短语。操作这些短语可能会影响模型的预测，因此这些短语会组合一个“词汇”来指导攻击。当给对手一个句子时，他可以使用该词汇表来查找句子的弱点，添加一个热门短语，删除给定句子中的热门短语或插入由热门短语组成的有意义的事实。
DeepWordBug [111]和TextBugger [112]是用于文本分类的黑盒攻击方法。前者的基本思想是定义一种评分策略，以识别关键标记，如果修改这些标记将导致对分类器的错误预测。然后，他们尝试对此类令牌进行四种类型的“难以理解的”修改：交换，替换，删除和插入，以误导分类器。后者遵循相同的想法，并通过引入新的评分功能对其进行了改进。
Samanta和Mehta的作品[113]，Iyyer等人[114] 开始制作在语法上纠正和维护原始句子语法结构的对抗性句子。 Samanta和Mehta [113]通过使用同义词替换原始单词或添加一些在不同上下文中具有不同含义的单词来实现这一目标。另一方面，Iyyer等人[114] 通过解释句子的结构来愚弄文本分类器。
Witbrock [115]对输入文本进行句子和单词的释义，以制作对抗性例子。在这项工作中，他们首先构建了一个释义语料库，其中包含许多单词和句子释义。为了找到输入文本的最佳释义，采用贪婪方法从语料库中为每个单词或句子搜索有效的释义。此外，他们提出了一种梯度引导方法来提高贪婪搜索的效率。这项工作在理论上也有重要贡献：他们正式将离散对抗攻击的任务定义为对集合函数的优化问题，并且证明了贪心算法可确保CNN和RNN文本分类器的近似因子。

7.3 其他NLP任务中的对抗样本

7.3.1 对阅读理解系统的攻击

在工作中[116]，作者研究了阅读理解模型是否容易受到对抗性攻击。在阅读理解任务时，要求机器学习模型根据文章段落的“理解”回答给定的问题。例如，工作[116]专注于斯坦福问答数据集（SQuAD），其中系统回答有关维基百科段落的问题。通过插入对抗性句子，作者成功地降低了SQuAD上最新阅读理解模型的智能。如图12所示，插入的句子（蓝色）看起来类似于问题，但与正确答案并不矛盾。这个插入的句子对于人类读者来说是可以理解的，但是却使机器非常混乱。结果，所提出的攻击算法将16种最新阅读理解模型的性能从平均75％F1得分（准确性）降低到36％。
他们提出的算法AddSent显示了四步操作来查找对抗性句子。
1）假问题：在冠军杯XXXIV中，球衣号码为37的四分卫的名字是什么？
2）假答案：Jeff Dean。
3）声明形式的问题：四分卫杰夫·迪恩（Jeff Dean）是冠军杯XXXIV的第37号球衣。
4）语法正确：四分卫杰夫·迪恩（Jeff Dean）在冠军杯XXXIV中拥有37号球衣。

7.3.2 对神经机器翻译的攻击

这项工作[117]研究了机器学习翻译工具的输入句子是否受到自然错误（打字错误，拼写错误等）和手工制作的失真（字母替换，字母重新排序）的干扰。实验结果表明，最新的翻译模型容易受到两种类型的错误的影响，并建议进行对抗训练以提高模型的鲁棒性。
Seq2Sick [118]尝试在神经机器翻译和文本摘要中攻击seq2seq模型。在他们的设置中，设定了两个攻击目标：误导模型以生成与基本事实重叠的输出，并导致模型产生具有针对性关键字的输出。该模型被视为白盒，作者将攻击问题表述为优化问题，他们试图通过最小化类似于铰链的损失函数来解决离散扰动。

7.4 对话生成

与上面明确定义成功和失败的任务不同，在对话任务中，对于给定的上下文没有唯一的适当响应。因此，关于攻击对话模型的工作，不是误导训练有素的模型以产生不正确的输出，而是寻求探索神经对话模型的特性，以使其受到输入扰动的干扰，或引导模型输出目标响应。
　　在研究中[119]，作者通过使用一些启发式技术来修改原始输入并观察相应的输出，从而探索了神经对话模型的过度敏感性和过度稳定性。他们通过检查输入修改后输出是否显着变化来评估对话模型的鲁棒性，但不考虑目标输出。他们还研究了使用这些对抗性示例重新训练对话模型时所产生的影响，以提高基础模型的鲁棒性和性能。
　　在工作[120]中，作者试图找到触发输入，这些输入可以导致神经对话模型产生有针对性的严重反应。他们设计了一种基于搜索的方法来确定输入中的单词，从而使目标响应的生成概率最大化。然后，他们将对话模型视为白盒，并利用渐变信息来缩小搜索空间。最终，他们表明，该方法适用于“正常”目标响应，这些响应正在解码某些输入语句的结果，但对于手动编写的恶意响应而言，它很难成功。
工作[121]将神经对话模型视为黑匣子，并采用了强化学习框架来有效地找到针对性响应的触发输入。黑盒设置更严格，但更现实，同时适当放松了对生成的响应的要求。预期生成的响应在语义上与目标响应相同，但不一定与它们完全匹配。

未完

锐单商城拥有海量元器件数据手册、IC替代型号，打造电子元器件IC百科大全！

高被引Top1团队综述：Adversarial Attacks and Defenses in Images, Graphs and Text: A Review【论文翻译...

相关文章