神经网络的快速发展,使其应用于多种领域,如自动驾驶、面部识别、目标
检测、语音识别和图像分类等。但是,最近的研究
[1,2,3]
已经表明神经网络容易受
到对抗样本的影响。攻击者可以通过在输入中添加一些人类不容易感知的微小
扰动,使得神经网络输出任何想要的结果。对抗样本的发现对深度神经网络在
现实生活中的应用构成了极大的安全威胁。攻击者可以通过生成对抗样本来欺
骗面部识别系统,入侵移动设备,获取相关的隐私信息;或是对道路标识符进行篡
改,促使自动驾驶汽车将右转弯的交通标志识别为笔直,由此引发交通事故。
对抗样本的研究最初主要集中在图像空间上,除了少部分目标检测,语义分
割,人脸识别和强化学习的研究内容外,大部分都是针对图像分类任务
[1]
。在其他
领域,对抗样本也有相应的研究,如:文本分类,恶意软件检测
[2]
和语音识别
[4]
等。
本文着重于语音识别领域的对抗样本攻击研究。
通常,根据攻击者攻击目标的不同,对抗攻击可以分为两种类型。一种常见
的攻击方式是找到使目标模型分类错误的最小扰动。第二,在最大允许扰动范
围内,最大化目标模型将扰动样本分类为目标类别的概率。最近,在获得具有最
小扰动的对抗样本的攻击下,CARLINI 等人
[3]
证明,对于任何音频样本,仅添加少
量扰动就可以使自动语音识别模型将音频转录为攻击者指定的任意短语。尽管
这种攻击产生的样本具有较低的噪声,但它需要进行大量的迭代,这对于实际场
景中的自动语音识别攻击是不切实际的。
为了产生使对抗扰动范数值最小的攻击,需要优化两个目标,即在模型对输
入进行了错误分类的同时还要保证尽量小的添加的扰动范数值。当前最先进的
方法 C &W
[3]
通过设计使用两个损失函数项来解决此问题,该方法攻击效果的
好坏取决于平衡两个损失函数的超参数 c 的选择。在此基础上,还需要通过大
量迭代来实现攻击。笔者提出了一种 A-FTA 方法,该方法基于最大化对抗样本
和目标类别相似度的策略。具体来说,使用投影梯度下降法来生成目标音频对
抗样本。在每次迭代中,针对每个音频值在损失函数中进行梯度下降操作,以使
损失函数最小化,同时根据样本是否具有对抗性来改变最大扰动范数值。攻击
的步长则随着迭代次数的增加而逐渐减小。最后,将生成的扰动音频映射到固
定的可行解空间中。所提出的方法可以大大减少攻击所需的迭代次数,并且还
可以避免由于扰动范数较小而导致最优解在两点之间振荡的问题。大量实验表
明,在 300 次迭代中,A-FTA 方法的攻击效果要优于现有的方法。即使仅进行
100 次迭代,依然能保证非常高的攻击成功率。
评论0
最新资源