随着越来越多的摄像采集与监控设备被部署,视频中人脸识别的需求大幅上升。这些
系统迫切地需要可靠与准确的人脸识别。与静态配合式人脸识别
[1-3]
不同的是,视频中的人
脸识别往往是非受限的,即捕捉姿势、图像质量等在帧间都会呈现巨大的变化。一方面,
帧间信息可以形成信息互补,并通过多帧对人脸进行更加准确的识别;另一方面,帧间部
分低质量,如运动模糊、极端采集角度及低分辨率的图像,又会干扰视频人脸识别的结
果。如果直接使用静态人脸识别方法,那么这些低质量帧将会带来误识别。因此如何对帧
之间的信息进行有效汇聚,从而形成更加鲁棒的视频人脸特征表达,成为一个关键问题。
目前对视频中进行人脸识别最流行的方法是将视频人脸图像帧表示为无序的特征向量
[4-8]
,并把各帧的特征向量进行汇聚成为视频级特征。验证时,对视频级特征进行相似性检
索即可。常见汇聚的方式有平均汇聚
[6]
、最大池化汇聚与注意力机制汇聚
[7]
。但这些方式需
要对所有视频帧进行特征提取,消耗了大量的计算资源,并不高效。因此近来,视频识别
领域提出了如 3D 卷积
[8]
等新颖的视频分析框架,可以有效地对连续帧信息进行捕捉,但
3D 卷积同样会引入巨大的计算量。
本文首先比较了基于 2D 卷积网络与不同帧间汇聚的方法,并介绍了一种在视频中使
用 3D 分解卷积的连续帧人脸识别方法。该方法不需要逐帧地对人脸数据进行提取,而是
将多帧输入一个 3D 分解卷积结构,得出一个全局的特征向量。与逐帧进行特征提取并汇
聚的算法相比,该方法可以大幅提高计算效率,且保持了竞争力的识别精度。最后,本文
提出了用于视频人脸识别的时间金字塔网络,可以对帧间互补信息进行有效建模。3D 分解
卷积与时间金字塔网络的有效性在 YouTubeFace
[9]
、PaSC 测试集得到了验证。
1. 视频人脸识别
本节介绍视频人脸识别的整个流程及各项的详细配置。视频人脸识别系统可以分为 3
部分:视频特征编码器、优化视频编码器的损失函数及将视频进行匹配与检索的查找方
法。首先将视频切成连续且非重叠的视频片段{ck}{ck},每个片段包含有 TT 帧,对每个片
段进行特征抽取。片段特征抽取器将片段作为输入,并且输出 DD 维度的特征向量 fcfc。
视频总体的特征为所有视频片段特征的平均汇聚。
在对视频间特征进行比对时,本文采用余弦相似度,并且设定阈值,当阈值大于一定
值时,认为两段视频中的人为同一人,亦或是视频中的人脸与底库当中的相匹配。视频特
征向量 xixi 与 yiyi 的余弦相似度为:
cos(θ)=∑i=1n(xi×yi)∑i=1n(xi)2−−−−−−−√×∑i=1n(yi)2−−−−−−−√cos(θ)=∑i=1n(xi×yi)∑i=1n(xi)2×∑i=1n(yi)2
判定是否为同一人的阈值,可根据应用场景进行设定。在评价性能时,往往采用一定
FPR(false positives rates)下的 TPR(true positives)进行比较。