基于自注意力模态融合网络的跨模态行人再识别方法研究.docx

版权申诉

172 浏览量 2023-02-23 16:52:02 上传评论收藏 1.51MB DOCX 举报

资源推荐

资源详情

资源评论

近年来, 伴随着视频采集技术的大力发展, 大量的监控摄像头部署在商场、公园、学

校等公共场所. 监控摄像的出现给人们带来了极大的便利, 其中最直接的一个好处就是可以

帮助公安等执法部门解决盗窃、抢劫等重大刑事案件. 但是正是由于监控摄像头布置的区

域十分广阔, 基本在大中小城市中都遍地布满了监控摄像头, 当一个目标人物在一个城市的

监控摄像网络中移动时, 往往会导致公安等相关部门人员在一定时间内在整个网络中对监

控视频进行查看, 这对公安等相关部门进行区域的管理以及视频的查看带来了较大的不便.

因此, 需要一种方便、快捷的方式来代替人工对监控视频中行人进行搜寻. 为了实现对监控

视频中的行人进行搜寻这个目标, 其本质就是要实现多目标跨摄像头追踪, 而行人再识别技

术

[1-2]

是多目标跨摄像头追踪问题的核心与关键. 行人再识别和多目标跨摄像头追踪的关系

如图 1 所示. 实际场景中, 摄像头拍摄到的是包含众多行人与复杂背景的图像, 这个时候可

以利用行人检测技术从拍摄到的复杂全景图像中得到行人包围框, 之后对于行人包围框集

合利用行人再识别技术进行搜寻.

图 1 行人再识别和多目标跨摄像头跟踪关系示意

Fig. 1 The relationship between person re-identification and multi-target cross-camera tracking

下载: 全尺寸图片幻灯片

除此之外, 犯罪分子通常会在夜间行动, 这时仅仅靠 RGB 相机去采集图像不能很好地

解决这种夜间出现的行人匹配问题. 为了对夜晚出现的行人也能进行匹配, 除了 RGB 相机

外, 有些地方可能会布控红外(Infrared, IR)相机, 这样, 在夜间或者是光线较暗处也可以采

集到行人的红外图, 弥补了在夜晚传统的 RGB 相机采集失效的问题. 在这种情况下, RGB

图和 IR 图之间的跨模态匹配(跨模态行人再识别)具有很重要的现实意义. 跨模态匹配的重

点是寻找不同模态间的相似性

[3-4]

, 从而跨越模态对行人再识别的限制.

跨模态行人再识别相对于传统的行人再识别, 除了面临行人之间姿态变化、视角变化

等问题外, 数据之间还存在跨模态的难点. 图 2 为跨模态行人再识别数据集中的行人数据.

图中第 1 行为在白天通过 RGB 相机在室内采集到的 RGB 图像; 第 2 行为在夜晚通过红外

相机在室内采集到的 IR 图像; 第 3 行为白天在室外采集到的 RGB 图像; 第 4 行为夜晚在

室外采集到的 IR 图像. 每一列的 4 张图片属于同一个人, 不同列的图片属于不同的人. 与

传统的 RGB-RGB 图像之间的匹配不同, 跨模态数据集上所关注的是 IR 图像和 RGB 图像

Zheng 等

[9]

利用一个孪生网络

[10]

, 结合分类问题与验证问题, 一次输入一对行人图片,

对于输入的一对行人图片, 网络一方面要预测两幅图片中行人各自的 ID, 另一方面要判断

输入的两幅图片中的行人是否为属于同一行人. 在分类问题中, 他们使用 SoftMax 损失进

行行人类别分类. 在验证问题中, 利用一个二维 SoftMax 损失进行一个二分类.

Zhang 等

[11]

提出了一种端到端的方法 AlignedReID, 让网络自动地去学习人体对齐.

在 AlignedReID 中, 深度卷积神经网络不仅提取全局特征, 同时也对各局部提取局部信息,

在提取局部信息时采用动态匹配的方法选取最短路径, 从而进行行人对齐, 在训练时, 最短

路径长度被加入到损失函数, 辅助学习行人的整体特征.

Zhao 等

[12]

提出了一种基于人体关节点对人体进行区域划分的网络(Spindle net), 首先

定位人体的 14 个关节点, 通过区域提取网络来产生 7 个身体区域, 再通过 FEN (Feature

extraction net)特征提取网络和 FFN (Feature fusion net)特征融合网络以身体区域为基础进行

人体特征提取与融合.

Dai 等

[13]

提出了一种批特征擦除 BFE (Batch feature erasing)方法, 对于一个批量的特征

图, 随机遮挡住同样的一块区域, 强迫网络在剩余的区域里面去学一些细节的特征. 这样训

练得到的网络不会太过于关注那些显而易见的全局特征.

Zhong 等

[14]

通过引入 Camera style adaptation 来解决相机差异导致的行人图片变化(光

线、角度等)的问题. 作者首先利用 CycleGAN

[15]

实现不同相机风格的转化, 在得到不同相机

风格下的图片后, 将这些生成的图片放入网络中进行训练, 其中原始图像利用 SoftMax 损失

进行有监督的训练, 生成图像利用 LSR (Label smoothing regularization)损失进行训练. LSR

损失用于解决生成图像产生较多噪音的问题. 通过在训练数据中增加相机风格图片, 一方面

增加了训练集数据量, 另一方面通过增加各个相机风格图片, 使得网络能够集中学习与相机

无关的特征.

1.2 跨模态行人再识别方法

跨模态行人再识别的方法目前集中于深度学习的方法. 包括通过设计卷积神经网络来

更好地学习跨模态行人的特征以及利用损失函数来更好地度量不同模态的行人之间的相似

度.

2017 年, Wu 等

[16]

提出了一种基于 Deep zero-padding 的跨模态行人再识别方法, 并且

建立了一个大规模跨模态行人再识别数据集 SUSU-MM01. 作者对输入的 RGB 图和 IR 图

在通道上进行了填充. RGB 图先转换为第 1 通道的灰度图, 之后在第 2 通道填充大小与灰

度图一样的全 0 值. 对 IR 图, 在第 1 通道填充大小与 IR 图一样的全 0 值. 接着将填充后的

RGB 图和 IR 图统一的放入网络中进行训练, 通过 SoftMax 损失对行人标签进行有监督的

训练.

Ye 等

[17]

提出 BDTR (Bi-directional dual-constrained top-ranking)方法来解决跨模态行人

再识别. 作者通过一个孪生网络对 RGB 图片和 IR 图片分别进行特征提取, 利用 SoftMax

损失和提出的双向排序损失(Bi-directional ranking loss)进行有监督的训练. 双向排序损失包

剩余19页未读，继续阅读

评论收藏

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 3550
资源: 1万+

基于自注意力模态融合网络的跨模态行人再识别方法研究.docx

论文研究-基于特征融合的行人重识别方法.pdf

基于多阶信息融合的行为识别方法研究.docx

融合生成对抗网络和姿态估计的视频行人再识别方法.docx

基于多样化局部注意力网络的行人重识别.docx

一种基于样本中心损失函数的跨模态行人重识别方法与流程.docx

基于卷积注意力机制和多损失联合的跨模态行人重识别.docx

基于图像和特征联合约束的跨模态行人重识别.docx

互惠双向生成对抗网络用于跨模态行人重识别.docx

基于多尺度融合注意力机制的人脸表情识别研究.docx

基于多池化融合与背景消除网络的跨数据集行人再识别方法.docx

基于多池化融合与背景消除网络的跨数据集行人再识别方法

基于特征融合的多模态身份识别方法研究

基于卷积注意力模块和无锚框检测网络的行人跟踪算法.docx

利用混合双通路神经网络的跨模态行人重识别.docx

基于跨模态上下文感知注意力的多模态情感分析 .docx

基于多模态融合的非遗图片分类研究.docx

基于语义相似性的跨模态图文内容筛选存储机制研究.docx

基于深度学习的跨模态检索研究.docx

论文研究-基于深度模态融合网络的多模态情感识别 .pdf

基于多模态融合的驾驶人愤怒情绪识别方法研究_毕业论文.pdf

基于社会注意力机制的行人轨迹预测方法研究.docx

人工智能视域下的学习参与度识别方法研究——基于一项多模态数据融合的深度学习实验分析.pdf

基于经验模态分解的图像融合研究.docx

基于多模态特征融合的Fast-Flux恶意域名检测方法.docx

基于跨模态深度度量学习的甲骨文字识别.docx

基于语义自编码哈希学习的跨模态检索方法.docx

基于松弛Hadamard矩阵的多模态融合哈希方法.docx

多模态人脸识别融合方法比较研究.pdf

最新资源