基于注意力机制的多特征融合人脸活体检测.docx资源-CSDN文库

版权申诉

文档资料

170 浏览量 2022-11-03 12:06:09 上传评论收藏 513KB DOCX 举报

资源推荐

资源详情

资源评论

0 引言

随着信息技术向智能化的不断迈进，人脸识别技术得到了极大的普及与发展，在访问控制和登录系

统等方面得到了广泛的应用. 但大多数现有的人脸识别系统非常容易受到人脸欺骗攻击的影响. 人脸欺骗

攻击指的是非法用户试图通过某种欺骗手段绕过人脸认证系统和人脸检测系统. 因此，在人脸识别系统中

要加入人脸活体检测环节来抵御这些欺骗攻击. 如图 1 所示，只有被人脸活体检测系统判断为活体时才会

被接受，并进行下一步的人脸识别

[1]

. 常见的欺骗攻击如打印的照片攻击

[2]

、各种智能电子设备重放的视

频攻击

[3]

、3D 面具攻击等

[4]

. 照片攻击指的是攻击者首先通过互联网平台获取合法用户的人脸图像、偷拍

合法用户的人脸图像或者从视频中截取一部分图像，然后通过打印照片或者纸张形式呈现给认证系统的攻

击. 重放的视频攻击指的是非法用户通过视频重放进行的攻击，来显示几乎与真实人脸活体具有相似的行

为. 面具攻击是攻击者制作真人的塑料面具或者硅面具来进行攻击

[5]

图 1 人脸欺骗攻击和人脸活体检测任务 Fig.1 Face spoofing attacks and face liveness detection task

图选项

人脸活体检测是生物识别和计算机视觉的基本问题之一，只有检测到真实人脸才能进行下一步工

作，否则，便将其视为欺骗攻击.

为了确定在摄像机前呈现的人脸是真实人脸，还是虚假欺骗的人脸攻击，许多学者已经提出了很多

有研究价值的人脸活体检测方法，基本可以分为：基于人工设计特征的方法、基于深度学习的方法和基于

融合策略的方法这三类

[6]

在最初的几年里，基于手工设计的特征的方法更加普遍. 例如基于纹理的特征，Li 等

[7]

利用傅里叶

谱分析发现了二维图像和三维图像的纹理差异，二维图像和三维图像的频率分布不同，在频域上对人脸的

真假进行判断，虽然傅里叶频谱分析方法相对简单，但仅使用频谱分析的算法的鲁棒性不强，且容易受图

像光照和分辨率等的影响. Määttä

[8]

等采用局部二值模式(local binary patterns，LBP)来描述图像的微观纹

理信息，进行活体检测，这种局部特征方法的优点是算法快速，对光照强度改变的鲁棒性较好，不足之处

是对位置方向的改变和声音方面的敏感性都不是很突出. 文[9]提出一种基于 LBP-TOP 的算法，将图像的

空间和时间信息进行结合，成为一个单一的多分辨率纹理描述符的检测攻击策略，其性能优于文[8]中基于

LBP 的方法. 还有其它的特征，如高斯差分(difference of Gaussian，DOG)

[10]

、尺度不变特征转换(scale-

invariant feature transform，SIFT)

[11]

、加速稳健特征(speeded up robust features，SURF)

[12]

等，都是对

欺骗检测有意义的特征. 虽然这些基于手工设计特征表达的方法也能取得不错的活体检测效果，但对不同

的光照、姿态和特定的身份对象比较敏感，特征描述子的层次较低，且这些方法不能捕捉到活人脸和欺骗

人脸之间最具区别性的线索.

随着深度学习在计算机视觉领域愈来广泛的应用

[13]

，与手工提取的特征相比，深度学习方法更能学

习到更一般的特征，从而进一步提高算法的性能，可以用来应对各种类型的欺骗攻击. 于是，很多基于神

经网络的人脸活体检测的方法被提了出来. Yang 等

[14]

在 2014 年首次提出应用卷积神经网络(convolution

neural network，CNN)架构来替代人工设计的特征提取模型，用于活体检测. 与手工提取特征的相比，通

过卷积神经网络提取特征具有好可分性，但在交叉试验时模型的性能可能不太理想. Xu 等

[15]

提出了一种

LSTM-CNN 架构的多帧的视频人脸防伪算法，实现端到端的从视频序列中学习时间连续特征，比单纯的

CNN 网络的性能有着一定的提高，但存在计算较为复杂的缺点. Liu 团队

[16]

设计了一个 CNN-RNN 的网络

架构，先通过对人脸图像训练得到深度图，然后通过监督学习预测连续视频序列的 Pulse 统计量(rPPG 信

号)进行序列监控得到心率统计量. 最后将得到的深度信息和 rPPG 统计量的信息进行融合，以对真假人脸

进行分类，取得了很好的结果. Luo 等

[17]

从 3 种多尺度滤波方法中提取纹理特征，然后将得到的纹理特征

直接进行拼接，形成融合后的特征进行分类. Song

[18]

等首次提出将活体检测与人脸检测相结合的方式，手

工设计的 SPMT(spatial pyramid coding micro-texture)特征和 TFBD(template face matche binocular

depth)特征进行提取，通过将卷积神经网络提取特征与手工提取特征相融合的方式来进行人脸防伪，模型

速度虽然比之前方法有显著提高，但手工设计的特征比较复杂繁琐.

虽然现有的基于深度学习方法探索了利用不同信息的人脸活体检测问题，但大多数方法只适用于人

脸的单一线索. 然而单个信息的特征具有一定的局限性，表达的信息不够丰富和完整，为了弥补单个信息

的不足，充分体现特征的鉴别能力，达到更好的检测效果，已经有很多的研究工作考虑多特征融合的人脸

活体检测. Kim 等

[19]

将频率和纹理信息结合，提出了一种基于单幅图像的人脸活体检测方法. 因为单幅图

像应用的局限性，Komulainen 等

[20]

提出了一种将视频运动特征和纹理特征相融合的方法来鉴别人脸真伪.

Boulkenafet 等

[21]

从 3 种多尺度滤波的方法中提取纹理特征，然后将得到的纹理特征向量直接进行拼接，

得到融合后的特征向量，最后进行活体人脸和假人脸的分类. Wang 等

[22]

把从摄像机 Kinect 采集的图像中

提取的深度信息和从 RGB 图像中学习的纹理信息结合起来进行人脸活体检测. 但是这种方法需要一台额

外的测量图像深度的摄像机，增加了操作的不便性和成本. Feng 等

[23]

融合多线索集成神经网络提取的相

邻帧之间的光流信息和剪切波特征，来判定是否存在欺骗攻击，没有充分利用特征之间的相互作用.

Wang 等

[24]

提出了一种新型面部反欺骗方法，该方法利用面部深度估计的细粒度的时空信息. 在原数据集

的基础上，为了更符合实际的欺骗攻击方式，Zhang 等

[25]

发布了一个目前主题多样性、数据规模和数据

模式等方面最大的人脸反欺骗公共数据库，包含 1 000 个主题，由 RGB、深度和红外三种模式组成，还

提出一种新颖的三支流网络架构，融合多模式来检测人脸欺骗攻击.

Khammari 等

[26]

通过将图像的局部二进制模式(LBP)和简化的韦伯局部描述符(S-WLD)特征通过神经

网络提取特征，然后将特征向量拼接在一起进行特征融合，用来进行人脸活体检测. Liu 等

[5]

提出一种基于

局部二值模式—多层离散余弦变换(local binary pattern and multilayer discrete cosine transform，LBP-

MDCT)和卷积神经网络融合的人脸活体检测算法，将得到的 LBP-MDCT 特征和 CNN 特征分别输入 SVM

分类器，然后在决策层融合. 虽然融合策略可以有效地将图像的局部和全局信息进行结合，但在决策层的

融合会丢失一些重要的信息. Chen 等

[1]

针对活体人脸检测问题，利用两种模式进行特征提取. 一种是采用

传统的旋转不变局部二制模式(RI-LBP)来提取彩色纹理特征，另一种是使用 CNN 来提取深层特征，然后

再并行融合两种不同的特征进行人脸活体检测. 与单个特征相比，多个特征信息的融合显示出更高的准确

率. 但文[1]和文[26]的特征层的多个特征向量的串联或并行融合方式，是把各个特征向量独立平等对待

的，没有利用特征之间的相互关系，使得检测的精度和泛化性能有待于进一步提高.

为了充分利用特征之间的关系，高效利用特征信息，最近有学者使用视觉注意力模型来融合提供更

多信息的特征，将感知集中在特征的重要部分. 2014 年谷歌 DeepMind 团队

[27]

提出了注意力机制，将其

用于图像分类任务中，解决了序列到序列模型中灾难性的遗忘问题. Bahdanau 团队

[28]

将机器翻译中首次

加入注意力机制，与之前对比取得了不错的效果. 此后，注意力机制在计算机视觉任务上得到广泛应用.

在图像分割

[29]

、目标识别等

[30]

方面取得了不错的效果. Chen

[31]

等对于人脸活体检测问题，提出基于注意

力的融合方法，来融合 RGB 和 MSR(multi-scale retinex)特征，也取得了不错的效果，但在深层神经网络

中，来自深层的特征图表达了较高的语义级别信息，当欺骗线索位于较低级别的图像像素中时，会出现问

题. 这在实际环境中并不罕见. 所以，本文加入注意力机制来融合局部二进制模式(local binary pattern，

LBP)、简化的韦伯局部描述符(simplified weber local descriptor，S-WLD)和频谱特征，既能使低层信息

可以很容易地通过网络传递到分类器，从而克服了上述情况下的缺点，又能使模型关注到输入的重要信

息，使该方法在实际测试中得到很好的效果.

基于以上研究，针对少量特征类信息具有局限性问题，且多个特征向量的串联或并行融合方式，是

把各个特征向量独立平等对待的，没有利用特征之间的相互关系，为了充分利用多特征之间的关系及对识

别检测的重要性，进而提高人脸活体检测的精度和泛化性能，本文提出了一种新的基于注意力机制的多特

征融合的人脸活体检测方法.

本文的主要贡献如下：

1) 提出了一种结合注意力机制在特征层的融合方法，可以重点关注对检测结果重要的特征. 从而使

得特征信息更加的丰富，且可以提高模型检测的精度.

2) 在 Khammari 等

[26]

提出的 LBP 和 S-WLD 两种特征融合基础上，通过增加频域光谱图像作为额

外输入，可以增加输入的多样性，使得低层信息容易通过网络传递到分类器.

3) 提出了 TBCNN(three-branch convolutional neural network)模型，将 LBP、S-WLD 和频谱特征

在特征层进行融合，将图像的空域和频域特性结合起来进行分析，使提取的特征更加丰富且能提高活体检

测的精度、鲁棒性和泛化能力.

1 LBP、S-WLD 和频谱特征的提取

LBP 和 WLD 都是常用的图像纹理描述算子，在对人脸图像进行特征提取时都具有较强的能力. LBP

在特征提取的过程中只考虑了其它周围像素点灰度值，没有充分考虑中心像素点与周围像素点灰度之间的

梯度方向关系. 而 S-WLD 只考虑了中心像素点与周围像素点灰度值之间的激励强度. 这种算法不仅对图

像的灰度变化具有很好的鲁棒性，而且对噪声和光照变化的鲁棒性也很强

[26]

. 因此，两个特征之间可以互

补. LBP 特征是图像空间域信息的一个描述，只描述了图像像素点和邻域像素点的关系，没有关注图像的

整体信息. 活体人脸的纹理细节信息是要比非活体人脸丰富的，而且其对应的高频信息也相对多于非活体

人脸，LBP 特征没有关注活体人脸和非活体人脸图像的频域上的差异信息，在一定程度上降低了特征的鲁

棒性. 因此，加入频谱信息的输入. 首先，三维形状存在的差异导致低频区域的差异，该差异与人脸整体

形状所产生的照度分量密切相关. 其次，活人脸和欺骗人脸在细节上的差异引发高频信息的差异

[4, 32]

. 同

时，纹理信息在区分真实人脸和欺骗人脸也有其自身的优势. 与从三维对象拍摄的图像相比，从二维对象

剩余12页未读，继续阅读

评论收藏

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 3571
资源: 1万+

基于注意力机制的多特征融合人脸活体检测.docx

最新资源