利用混合双通路神经网络的跨模态行人重识别.docx资源-CSDN文库

版权申诉

138 浏览量 2022-11-28 20:24:42 上传评论收藏 397KB DOCX 举报

资源推荐

资源详情

资源评论

行人重识别是指给定某监控场景下的特定行人图像,运用计算机视觉和机

器学习等方法来检索跨摄像头或跨时间域下的具有相同身份的行人图像,被广

泛应用于智能视频监控领域,解决了复杂监控场景中感兴趣目标识别、长时跟

踪等问题,回答了智能视频监控领域“感兴趣目标是谁?”这一关键问题

[1]

。行人重

识别技术近年来引起了学术界和工业界的广泛关注,迫切的工业应用需求催生

了学术界极大的研究热情,在该领域涌现出了众多研究成果,很多方法在现有公

开标准数据集上甚至超越了人类的识别精度。但是,目前该技术依旧远远没有

达到落地应用的技术要求。其中一项最主要的原因是:真实监控场景中的数据

类型和质量极其复杂多样,仅仅研究理想光照条件下的单一可见光模态行人重

识别技术,已经远远不能支撑实际监控场景的应用需求。针对多模态数据的行

人重识别亟待深入研究。

当前行人重识别方面的研究主要是针对可见光数据,并且这些数据均是在

理想光照条件下收集到的高分辨率图像。然而,实际监控场景面临室内/室外、

白天/黑夜、阴雨等变化多端的自然光照条件,而可见光成像固有原理导致可见

光传感器对光照条件非常敏感,微弱的光照变化往往会引起极大的视觉差异,导

致弱光照条件下模型识别性能严重降低。图 1 给出了部分可见光—红外图像行

人重识别数据示例。为了弥补可见光数据在弱光照条件下的不足,构建了一个

支撑全天候、全场景智能视频监控需求的行人重识别系统,笔者将研究可见光

—红外图像行人重识别技术。红外摄像机的优势是其成像原理不依赖于人体对

可见光的反射,因此在低照度条件下红外图像行人重识别可以作为可见光行人

重识别技术的有力补充。

图 1

图 1 可见光—红外图像示例

可见光—红外图像行人重识别,是指利用可见光/红外图像行人数据匹配红

外/可见光图像行人数据。这是一种异质行人图像数据之间的检索问题,其核心

问题是构建跨模态数据间的统一共享特征表达,主要技术难点在于如何有效区

分跨模态数据中的模态共享和模态特有特征信息。在跨模态图像识别任务中,

期望跨模态共享特征信息学习到更多与身份判别相关联的信息。因此,如果所

学共享特征信息混有比较多的与模态特有特征相关的信息,则会降低统一特征

表达下的身份判别能力。同时,跨模态数据之间的非线性映射比单一类型数据

在低维空间上的非线性映射更加复杂,这将会对模型结构设计提出更高的要求,

模型架构也会更加复杂。在现有跨模态行人重识别研究中,最主要的研究方法

是基于双通路神经网络的特征提取模型。其中一类方法称为双通路共享神经网

络架构,该结构直接采用骨干网络整体参数共享的方式获得跨模态数据间的共

享特征表示;另一类方法称为双通路混合神经网络结构,该结构首先采用非共享

参数的双通路神经网络分别捕获不同模态图像的特有信息,然后在此基础上采

用共享参数的网络结构将不同模态特征信息嵌入到统一的共享特征空间中。在

上述神经网络架构设计的基础上,相对于单一可见光模态行人重识别任务,大量

方法研究了跨模态数据特征之间的约束关系,设计了不同模态数据之间的信息

传递机制和样本特征间近邻关系的一致性约束准则,挖掘不同模态数据间的特

征互补学习策略,最终结合上述两种方法建立跨模态数据之间的共享特征表达。

众所周知,神经网络架构往往对模型的特征表达能力起到决定性的作用,因此将

重点针对双通路混合神经网络的结构进行分析,寻找更优的双通路混合神经网

络架构,平衡模型针对不同模态数据特有特征和共享特征的表达学习能力,有效

地提升多模态数据之间的匹配能力。同时,针对整个神经网络架构的特性,采用

学习率分级自适应调整策略,有效地提升了模型的特征学习能力。

笔者的创新点和贡献包括:(1) 提出了一种基于混合双通路神经网络的跨

模态行人重识别方法,利用该方法深入分析了混合双通路神经网络中模态共享

参数层和模态独有参数层的设计对跨模态行人重识别模型的影响,同时针对模

型嵌入层,在设计损失函数的时候充分考虑了不同模态数据类内特征分布的一

致性约束和类间相关性约束准则;(2) 针对整个神经网络架构的优化,采用了学

习率自适应分级调整策略来提升模型的特征学习能力;(3) 通过大量实验,验证

了所提出方法在当前红外 —可见光行人重识别标准数据集 (SYSU-MM01 和

RegDB)上获得了非常高的识别精度。

1 相关研究工作

行人重识别研究是面向监控视频的行人图像检索。由于真实监控场景中的

视频数据类型和质量极其复杂多样,导致行人重识别面临如下技术挑战

[2]

:(1)

大规模复杂监控场景中摄像头安装角度的多样性导致行人图像在二维图像空

间中的视角变化巨大;(2) 由于不同监控场景中摄像头与行人距离的差异,导致

行人图像的分辨率变化多样;(3) 受监控场景(如室内/室外)、天气变化等因素影

响,导致同一行人在不同摄像头或不同时段的图像视觉特征差异非常大;(4) 复

杂监控场景中遮挡问题导致难以获得完整的行人图像;(5) 受行人姿态和监控

视角的影响,导致不同监控场景中同一行人图像之间的类内差异往往大于不同

行人图像之间的差异。现有大量可见光行人重识别研究工作主要解决以上技术

挑战,而跨模态“可见光—红外”行人重识别主要解决的是不同模态数据之间的特

征对齐和数据映射等问题。因此,将分别从单一模态下的可见光行人重识别和

跨模态行人重识别这两方面探讨相关研究工作。

单一模态下的可见光行人重识别算法可以分为 3 类:第 1 类是基于手工设

计行人图像描述子的方法。这类方法主要结合了图像特征描述子和行人图像本

身所特有的形状和属性信息,设计了专门针对行人图像的特征描述子

[3]

。第 2 类

方法是基于距离度量损失函数的方法

[4]

。此类方法的核心思想是最小化相同类

别样本之间的距离,同时最大化不同类样本之间的距离。这种距离度量的方法

都是与基于特征的表示方法相结合使用的。第 3 类方法是基于深度学习的端到

剩余14页未读，继续阅读

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 4501
资源: 1万+

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip