1. 引言
行人重识别(Person re-identification)也称行人再识别, 被广泛认为是一个图像检索的子
问题, 是利用计算机视觉技术判断图像或者视频中是否存在特定行人的技术,即给定一个
监控行人图像检索跨设备下的该行人图像
[1]
.随着公众安全意识增强,行人重识别技术在视
频监控、智能安防等重要安全领域发挥着越来越重要的作用.
行人重识别技术在应用中面临两个主要问题:一是类内差异大,由于行人视频或图像
拍摄地点和时间不同,行人的视角、光照、姿态等方面存在差异,同一行人的特征信息也
会存在较大的差异;二是类间差异小,即由于环境复杂、行人遮挡等问题导致不同的行人
图像之间存在较大的相似性.
针对上述两个问题的主要解决方法为特征提取和度量学习.传统行人重识别方法通过人
工进行特征提取,如 RGB、HOG 算法
[2]
、SIFT 算法
[3]
等.使用度量学习的方法如 KISSME
算法
[4]
、LMNN 算法
[5]
、XQDA 算法
[6]
、LFDA 算法
[7]
来得到最优的相似度度量.然而,人工
的特征提取方法成本较高且难以应用于复杂场景下的识别任务,另外,随着数据量日益剧
增,利用传统度量学习求解问题已然很困难.随着深度学习的发展
[8-10]
,2014 年,Li
[11]
等首
次将深度学习应用于行人重识别中进行研究,之后,将深度学习应用于行人重识别研究中
逐渐流行.近年来,以神经网络为代表的深度学习在行人重识别研究中取得了极高成就,甚
至在部分情形下超过了人类的水平
[12-13]
.
深度学习模型可以自主学习得到复杂的特征描述,更深层的网络能够学习到更丰富的
特征信息.但随着网络层数的增加,网络会出现梯度消失,残差网络能够缓解梯度消失问
题,但提取出的特征信息表达能力不足.在残差网络中引入注意力机制模块可以解决特征信
息表达能力不足的问题.例如,Yifan Sun 等人提出的 PCB 分块算法
[14]
,将得到的特征图进
行暴力分割后获得的 6 个子区域进行融合,引入空间注意力来调整每个小块以解决行人身
体不对齐的问题.She
[15]
等人提出的在残差网络上引入 CBAM
[16]
注意力机制模块,尝试去通
过在通道上进行全局池化来引入位置信息,但这种方式只能捕获局部的信息,而无法获取
长范围依赖的信息.影响行人重识别模型识别能力的另一个重要因素是行人图像部分存在被
遮挡,Zhong 等
[17]
提出的基于随机擦除的数据增强方法,通过对行人图像中的部分像素值
进行随机擦除,使提取到的特征具有更好的鲁棒性,解决了现实情况中普遍存在的行人图
像被遮挡的问题.
根据上述问题,本文提出基于网格掩膜和残差坐标注意力网络的行人重识别算法.该算
法在残差网络的基础上,引入坐标注意力机制模块,缓解了模型梯度消失问题的同时增强
了特征信息表达能力.引入网格掩膜的数据增强方法,从而在降低网络过拟合的同时提高网
络泛化能力,有效的缓解了现实场景中存在行人图像被遮挡的问题.最后使用困难三元组损
失
[18]
对网络进行监督训练,使得样本在特征空间中获得了更优的聚类效果.实验验证了算法
的可行性和有效性.
评论0
最新资源