基于二阶对抗样本的对抗训练防御.docx资源-CSDN文库

版权申诉

9 浏览量 2023-02-23 20:07:48 上传评论收藏 217KB DOCX 举报

资源推荐

资源详情

资源评论

1. 引言

深度神经网络(DNN)在生物信息学

[1,2]

、语音识别

[3,4]

和计算机视觉

[5,6]

等领域获得成功

应用的同时，研究者们发现 DNN 容易受到对抗样本的攻击

[7]

，即在自然图像中添加微小的

扰动，可以欺骗 DNN 做出错误预测。由于对抗样本具有较好的隐蔽性，不易被人眼发

现，给安全敏感的应用带来很大的破坏性。例如，在自动驾驶领域，研究者们通过在道路

交通标志图片上添加微小扰动得到对抗样本，导致采用 DNN 进行道路交通标志识别的自

动驾驶汽车做出错误判断，引起交通事故的发生

[8]

。自动驾驶系统可能会遇到的道路交通

标志图片及其对应的对抗样本，对于人眼来说，两张图片是相同的，同为注意危险标志。

而自动驾驶系统中的 DNN 则把对抗样本判断为让行标志。这意味着难以察觉的扰动有可

能使一辆毫无故障的自动驾驶汽车做出危险的行为。因此，对于对抗样本的防御研究具有

现实意义。

自 Szegedy 等人

[7]

发现 DNN 中存在对抗样本以来，研究者们提出了一系列对抗样本

的生成与防御方法。生成对抗样本的过程通常被建模为一个有约束优化的问题，其目标是

在约束条件下最大化损失函数。现有的典型对抗样本包括 C&W

[9]

, Deepfool

[10]

, FGSM

[11]

,

PGD

[12]

, M-DI

2

-FGSM

[13]

等。同时，研究者们提出了多种防御对抗样本的方法，如防御蒸馏

[14]

、对抗训练

[15]

、强化网络

[16]

及对抗样本检测

[17]

等。

在大部分防御方法被文献[18]证实防御效果有限的情况下，对抗训练是少数被经验证

明为目前最为有效的防御方法。对抗训练最早由 Szegedy 等人

[7]

提出，通过将对抗样本注

入训练过程，以增强 DNN 的鲁棒性。随着研究的深入，Madry 等人

[13]

将对抗训练形式化

为由内部最大化问题和外部最小化问题组成的鞍点问题，即存在对抗样本最大化损失函数

的情况下，优化模型参数实现损失函数最小化。按照 Madry 等人的鞍点理论，解决内部最

大化问题需要更强的对抗样本，他们提出了基于 PGD(1 阶梯度投影)的对抗训练方法，实

验证明能够防御大部分 1 阶梯度攻击。但是 1 阶梯度对于 DNN 的逼近能力有限，无法进

一步找到更强大的对抗样本，因而也无法训练出更鲁棒的 DNN。基于这个思路，本文提出

于基于 2 阶梯度的对抗样本生成方法。与以往线性逼近方法不同，在输入样本的微小邻域

内，对 DNN 损失函数进行 2 阶多项式逼近。本文提出的方法优点是，利用 Hesse 矩阵可

提取到损失函数在输入邻域内的更多信息，从而更好地解决内部最大化问题。

本文分别从理论和实验角度证明了 2 阶对抗样本强于 PGD 对抗样本。本文提出将对

抗样本的扰动下界，即攻击成功所需的最少扰动，用于衡量不同对抗样本的强度。计算结

果显示，2 阶对抗样本的扰动下界低于 PGD，即 2 阶对抗样本攻击成功所需的最少扰动少

于 PGD，这意味着 2 阶对抗样本强于 PGD。在 MNIST 和 CIFAR10 上的实验结果验证了

本文的理论分析：(1) 相较于包括 PGD 在内的现有典型对抗样本，2 阶对抗样本能够在添

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余9页未读，立即下载

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 3663
资源: 1万+

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip