没有合适的资源?快使用搜索试试~ 我知道了~
基于自注意力模态融合网络的跨模态行人再识别方法研究.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 172 浏览量
2023-02-23
16:52:02
上传
评论
收藏 1.51MB DOCX 举报
温馨提示
试读
20页
基于自注意力模态融合网络的跨模态行人再识别方法研究.docx
资源推荐
资源详情
资源评论
近年来, 伴随着视频采集技术的大力发展, 大量的监控摄像头部署在商场、公园、学
校等公共场所. 监控摄像的出现给人们带来了极大的便利, 其中最直接的一个好处就是可以
帮助公安等执法部门解决盗窃、抢劫等重大刑事案件. 但是正是由于监控摄像头布置的区
域十分广阔, 基本在大中小城市中都遍地布满了监控摄像头, 当一个目标人物在一个城市的
监控摄像网络中移动时, 往往会导致公安等相关部门人员在一定时间内在整个网络中对监
控视频进行查看, 这对公安等相关部门进行区域的管理以及视频的查看带来了较大的不便.
因此, 需要一种方便、快捷的方式来代替人工对监控视频中行人进行搜寻. 为了实现对监控
视频中的行人进行搜寻这个目标, 其本质就是要实现多目标跨摄像头追踪, 而行人再识别技
术
[1-2]
是多目标跨摄像头追踪问题的核心与关键. 行人再识别和多目标跨摄像头追踪的关系
如图 1 所示. 实际场景中, 摄像头拍摄到的是包含众多行人与复杂背景的图像, 这个时候可
以利用行人检测技术从拍摄到的复杂全景图像中得到行人包围框, 之后对于行人包围框集
合利用行人再识别技术进行搜寻.
图 1 行人再识别和多目标跨摄像头跟踪关系示意
Fig. 1 The relationship between person re-identification and multi-target cross-camera tracking
下载: 全尺寸图片 幻灯片
除此之外, 犯罪分子通常会在夜间行动, 这时仅仅靠 RGB 相机去采集图像不能很好地
解决这种夜间出现的行人匹配问题. 为了对夜晚出现的行人也能进行匹配, 除了 RGB 相机
外, 有些地方可能会布控红外(Infrared, IR)相机, 这样, 在夜间或者是光线较暗处也可以采
集到行人的红外图, 弥补了在夜晚传统的 RGB 相机采集失效的问题. 在这种情况下, RGB
图和 IR 图之间的跨模态匹配(跨模态行人再识别)具有很重要的现实意义. 跨模态匹配的重
点是寻找不同模态间的相似性
[3-4]
, 从而跨越模态对行人再识别的限制.
跨模态行人再识别相对于传统的行人再识别, 除了面临行人之间姿态变化、视角变化
等问题外, 数据之间还存在跨模态的难点. 图 2 为跨模态行人再识别数据集中的行人数据.
图中第 1 行为在白天通过 RGB 相机在室内采集到的 RGB 图像; 第 2 行为在夜晚通过红外
相机在室内采集到的 IR 图像; 第 3 行为白天在室外采集到的 RGB 图像; 第 4 行为夜晚在
室外采集到的 IR 图像. 每一列的 4 张图片属于同一个人, 不同列的图片属于不同的人. 与
传统的 RGB-RGB 图像之间的匹配不同, 跨模态数据集上所关注的是 IR 图像和 RGB 图像
下载: 全尺寸图片 幻灯片
针对上述这些问题, 本文主要创新点如下:
1)提出一种自注意力模态融合网络以解决跨模态行人再识别中存在的模态变化问题;
2)提出使用 CycleGAN 对图像进行模态间的转换, 从而解决学习时需要对应的样本对
问题;
3)提出使用自注意力机制进行不同模态之间的特征筛选, 从而有效地对原始图像和使
用 CycleGAN 生成的图像进行区分.
1. 相关方法概述
1.1 RGB-RGB 匹配的行人再识别方法
近年来, 随着模式识别以及深度学习的发展, 研究人员针对行人再识别方法做了大量
的实验与研究工作. 前期针对行人再识别的方法主要集中于利用传统的模式识别方法, 例如
设计行人特征来表示行人, 或者利用一些距离度量方法来评估行人之间的相似性. 随着
Krizhevsky 赢得了 ILSVRC12
[5]
的比赛, 基于深度学习的方法得以流行. 深度学习的方法主
要集中于 3 个方面: 1)通过设计卷积神经网络更好地学习到行人的特征; 2)利用损失函数更
好地度量行人相似度; 3) 通过数据增强让网络更加鲁棒, 使网络可以忽略一些和行人类别
无关的特征.
Gray 等
[6]
为了考虑到空间信息, 首先将图像按水平方向划分为多个矩形, 之后在每个
矩形内, 利用颜色特征中的 RGB、HSV、YCbCr, 以及选择 21 个 Gabor、Schmid 滤波核来
获得纹理特征. 最后将得到的每个水平条特征拼接在一起, 作为最后行人的特征表示.
Yang 等
[7]
提出了一种新的语义特征显著性 Color Name 特征, 该特征不同于传统的颜
色直方图, 它通过将颜色量化, 保证每一个像素的颜色通道以较大的概率划分到量化的颜色
区间, 即对应的 Color name 中.
2012 年 Köstinger 等
[8]
提出经典的基于马氏距离度量的行人再识别算法 KISSME (Keep
it simple and straightforward metric).
Zheng 等
[9]
利用一个孪生网络
[10]
, 结合分类问题与验证问题, 一次输入一对行人图片,
对于输入的一对行人图片, 网络一方面要预测两幅图片中行人各自的 ID, 另一方面要判断
输入的两幅图片中的行人是否为属于同一行人. 在分类问题中, 他们使用 SoftMax 损失进
行行人类别分类. 在验证问题中, 利用一个二维 SoftMax 损失进行一个二分类.
Zhang 等
[11]
提出了一种端到端的方法 AlignedReID, 让网络自动地去学习人体对齐.
在 AlignedReID 中, 深度卷积神经网络不仅提取全局特征, 同时也对各局部提取局部信息,
在提取局部信息时采用动态匹配的方法选取最短路径, 从而进行行人对齐, 在训练时, 最短
路径长度被加入到损失函数, 辅助学习行人的整体特征.
Zhao 等
[12]
提出了一种基于人体关节点对人体进行区域划分的网络(Spindle net), 首先
定位人体的 14 个关节点, 通过区域提取网络来产生 7 个身体区域, 再通过 FEN (Feature
extraction net)特征提取网络和 FFN (Feature fusion net)特征融合网络以身体区域为基础进行
人体特征提取与融合.
Dai 等
[13]
提出了一种批特征擦除 BFE (Batch feature erasing)方法, 对于一个批量的特征
图, 随机遮挡住同样的一块区域, 强迫网络在剩余的区域里面去学一些细节的特征. 这样训
练得到的网络不会太过于关注那些显而易见的全局特征.
Zhong 等
[14]
通过引入 Camera style adaptation 来解决相机差异导致的行人图片变化(光
线、角度等)的问题. 作者首先利用 CycleGAN
[15]
实现不同相机风格的转化, 在得到不同相机
风格下的图片后, 将这些生成的图片放入网络中进行训练, 其中原始图像利用 SoftMax 损失
进行有监督的训练, 生成图像利用 LSR (Label smoothing regularization)损失进行训练. LSR
损失用于解决生成图像产生较多噪音的问题. 通过在训练数据中增加相机风格图片, 一方面
增加了训练集数据量, 另一方面通过增加各个相机风格图片, 使得网络能够集中学习与相机
无关的特征.
1.2 跨模态行人再识别方法
跨模态行人再识别的方法目前集中于深度学习的方法. 包括通过设计卷积神经网络来
更好地学习跨模态行人的特征以及利用损失函数来更好地度量不同模态的行人之间的相似
度.
2017 年, Wu 等
[16]
提出了一种基于 Deep zero-padding 的跨模态行人再识别方法, 并且
建立了一个大规模跨模态行人再识别数据集 SUSU-MM01. 作者对输入的 RGB 图和 IR 图
在通道上进行了填充. RGB 图先转换为第 1 通道的灰度图, 之后在第 2 通道填充大小与灰
度图一样的全 0 值. 对 IR 图, 在第 1 通道填充大小与 IR 图一样的全 0 值. 接着将填充后的
RGB 图和 IR 图统一的放入网络中进行训练, 通过 SoftMax 损失对行人标签进行有监督的
训练.
Ye 等
[17]
提出 BDTR (Bi-directional dual-constrained top-ranking)方法来解决跨模态行人
再识别. 作者通过一个孪生网络对 RGB 图片和 IR 图片分别进行特征提取, 利用 SoftMax
损失和提出的双向排序损失(Bi-directional ranking loss)进行有监督的训练. 双向排序损失包
剩余19页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3550
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 论文(最终)_20240430235101.pdf
- 基于python编写的Keras深度学习框架开发,利用卷积神经网络CNN,快速识别图片并进行分类
- 最全空间计量实证方法(空间杜宾模型和检验以及结果解释文档).txt
- 5uonly.apk
- 蓝桥杯Python组的历年真题
- 2023-04-06-项目笔记 - 第一百十九阶段 - 4.4.2.117全局变量的作用域-117 -2024.04.30
- 2023-04-06-项目笔记 - 第一百十九阶段 - 4.4.2.117全局变量的作用域-117 -2024.04.30
- 前端开发技术实验报告:内含4四实验&实验报告
- Highlight Plus v20.0.1
- 林周瑜-论文.docx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功