没有合适的资源?快使用搜索试试~ 我知道了~
融合生成对抗网络和姿态估计的视频行人再识别方法.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 82 浏览量
2023-02-23
20:15:10
上传
评论
收藏 170KB DOCX 举报
温馨提示
试读
13页
融合生成对抗网络和姿态估计的视频行人再识别方法.docx
资源推荐
资源详情
资源评论
行人再识别是指在无重叠视域监控系统中, 检测和匹配在不同视域摄像头下两个行人
是否为一个人的任务.广泛应用于公安实时监控区域、捉捕嫌疑人等任务当中, 对维护国家
的治安、提高公安办案效率有着重要的意义.但是由于不同视域下的摄像头之间的行人存在
分辨率、视角、光照条件、遮挡、背景干扰、行人姿态以及摄像头成像质量的差异, 导致
相同的人在不同视域摄像头下存在很大的外观差异, 会给行人再识别带来很大挑战.深度学
习在计算机视觉上取得的巨大成功, 使得在行人再识别领域的研究也日益增加, 卷积神经网
络(Convolutional neural network, CNN)作为特征提取器用来自主学习特征, 文献[1]提出了利
用 Siamese 网络进行有监督的学习, 来匹配和区分行人对.文献[2]将长短时记忆网络(Long
short-term memory, LSTM)引入 Siamese 网络, 对行人图像进行分割, 用 LSTM 依次捕捉各
区域之间的空间关系, 增强网络的判别能力. Liu 等
[3]
提出一个端到端的基于比较性注意力
网络, 使用 LSTM 来循环生成局部注意力的特征, 提取到更多局部的辨别性信息, 有效提高
行人再识别算法性能.由于实际环境条件的需求, 基于视频的行人再识别工作越来越得到关
注. Wang 等
[4]
提出的一个区分视频片段的方法(Discriminative video fragments selection and
ranking, DVR)框架用于行人再识别, 使用判别性的时空特征选择来自动发现和利用最可靠
的视频片段.文献[5]使用自适应的 Fisher 判别分析来解决视频行人再识别问题.文献[6]利用
视频三元组在训练视频中学习视频内距离度量和视频间距离度量, 从而提高识别的准确度.
文献[7]建立了时空人体动作模型, 可以为视频中的行人构建很好的时空表示. McLaughlin
等
[8]
提出了卷积神经网络捕捉图像特征, 循环神经网络(Recurrent neural networks, RNN)捕捉
帧与帧的时空关系特征来配合 Siamese 网络, 取得了很好的实验结果.文献[9]使用 LSTM 网
络以循环的方式来聚合每帧的行人特征.文献[10]采用端到端的双流网络, 提取了行人图片
特征和运动上下文信息来提高识别率.文献[11]在文献[8]的基础上分别添加了 CNN 和 RNN
上的注意力机制, 使其在时空上有重点的关注某些重要特征, 提升了识别效率.
2014 年, Goodfellow 等
[12]
提出了生成对抗网络(Generative adversarial networks, GAN).生
成对抗网络来源于二人零和博弈思想的启发, 结构分为两个部分, 生成网络(Generator
network, G)和判别网络(Discriminator network, D), 生成网络主要是通过捕捉训练集上的数
据, 来产生新的样本, 而判别网络则是判断样本是否是生成网络生成的还是来自原训练集.
两种网络相互竞争, 最后判别器将无法区分训练数据分布和生成数据分布, 生成的图片满足
原训练集的图片分布, 则完成训练, 实验表明在伪造图片方面, GAN 网络具有很强的优势.
文献[12]的提出使得越来越多的基于生成对抗网络的研究被提出, 文献[13]将 GAN 扩展到
了 CNN 的领域, 使得 GAN 的训练更加稳定和可控.文献[14]在原始 GAN 的基础上加入了
监督的信息, 使得生成的图片向着标签方向生成.文献[15]采用序列化的思想, 结合图像拉普
拉斯金字塔实现序列化的生成, 减少 GAN 每次学习的内容和难度, 图像质量得到提升.为了
解决 GAN 模型中存在训练困难、生成器和判别器的损失函数无法指示训练进程、生成样
本缺乏多样性等问题, 文献[16]采用 Earth-Mover 距离替代了 JS (Jensen-Shannon)散度来衡
量距离, 在近似最优判别器下优化生成器缩小 Wasserstein 距离, 拉近生成分布与真实分布.
人体姿态估计是通过给定图像来确定图像中各个人体部位的位置的过程, 用来分析人
体动作和行为.传统的方法分为基于人体特征
[17-19]
和基于模型的方法
[20]
.文献[17]使用形状上
下文特征作为人体的外观特征, 利用正则最小二乘法和支持向量机来进行回归.文献[18]同
样用形状上下文作为行人特征, 通过距离度量来判断图像间的相似度, 用来分析行人姿态估
计.文献[19]用 Gist 特征来作为人体特征, 通过进行非线性近邻元分析图像相似度来确定人
体手和头部的姿态.由于人体非刚体的特性, 基于模型的方法被提出, 文献[20]设想人体不同
部位是相互独立存在的, 并对不同部位添加了约束, 构造了人体的树形图结构模型作为姿态
估计的模型.基于深度学习的姿态估计方法近几年也被提出, 并取得了不错的成绩.文献[21]
用卷积神经网络来提取人体特征并计算关节点的分布, 结合现有的人体模型进行姿态估计.
文献[22]利用 CNN 来估计人体姿态, 融合空间信息和光流信息, 并且用热力图(Heatmap)来
取代关节点的坐标, 提高了关节点检测的鲁棒性.
目前在行人再识别课题研究中, 大量行人图像重构和生成的行人再识别方法被提出.高
质量的行人图片和大量的标签样本有助于网络性能的提高.文献[23]提出了一种半耦合低秩
判别字典学习(Semi-coupled low-rank discriminant dictionary learning, SLD22L)方法, 将超分
辨率重建引入行人再识别研究. Zheng 等
[24]
将生成对抗网络应用于行人再识别方向, 通过生
成对抗网络生成符合行人特征分布的图像, 并平滑行人标签, 提高了匹配效果. Qian 等
[25]
利
用生成对抗网络生成出不同姿势的行人图片, 解决了应用场景下行人姿势的干扰, 提升了算
法识别效果.为了解决在一个数据集上训练的网络不能应用在另外一个数据集的问题, 文献
[26]设计了 SPGAN (Similarity preserving cycle-consistent generative adversarial network), 可
以无监督地将标记图像从源域转换为目标域.
我们相信在实验中添加带有标签的样本可以提升网络性能, 提高识别效果.因此本文提
出了利用生成对抗网络来生成带有标签的视频样本通过增加样本数来提高网络能力, 同时
在输入中增加了行人关节点的一维特征.实验显示, 基于文献[11]的方法, 相较于其他行人再
识别相关方法, 在 PRID2011 和 iLIDS-VID 基于视频的行人再识别数据集上实验, 行人匹配
率得到了显著的提升.
本文的其余章节组织安排如下.第 1 节介绍本文提出的融合生成对抗网络和姿态估计的
视频行人再识别方法;第 2 节介绍本文算法在视频行人再识别公共数据集上的实验;第 3
节总结全文以及展望.
1. 融合生成对抗网络和姿态估计的视频行人再识别方法
1.1 通过生成对抗网络预测帧以增加样本
文献[27]采用了一种图像多尺度结构(见图 1)结合生成对抗网络对抗训练方法, 并设计
了图像梯度差损失函数来保证生成帧的清晰度.为了避免采样和池化所带来的分辨率上的损
失, 采用了拉普拉斯金字塔的结构, 通过 4 次升采样不断的逼近真实样本.拉普拉斯金字塔
中各层生成网络生成的预测图像可以表示为
图 1 多尺度结构
Fig. 1 Multi-scale architecture
下载: 全尺寸图片 幻灯片
Y^k=Gk(X)=uk(Y^k−1)+G′k(Xk,uk(Y^k−1))Y^k=Gk(X)=uk(Y^k−1)+Gk′(Xk,uk(Y^k−1))
(1)
其中, kk 下标表示不同的输入图片尺寸, kk 取值从 1 到 4, 分别代表输入尺寸为
4×44×4, 8×88×8, 16×1616×16 和 3232 ×× 3232, ukuk 表示图像升采样到 kk 尺寸大小的图
像, G′kGk′表示输入图像大小符合 kk 尺寸的生成模型, Y^kY^k 表示生成模型生成的符合 kk
尺寸的预测图像.判别模型 DD 输入一系列的图像帧, 用来训练分辨序列的最后一帧是真实
的图像还是 GG 生成的图像.同样为了满足生成模型中不同尺寸的变化, DD 是具有单个标量
输出的多尺度卷积网络. G,DG,D 交替训练, 使用随机梯度下降算法(Stochastic gradient
descent, SGD)来最小化损失函数.判别模型的损失函数 LDadvLadvD 表示为
LDadv(X,Y)=∑k=1Nscales[Lbce(Dk(Xk,Yk),1)+ Lbce(Dk(Xk,Gk(X)),0)]LadvD(X,Y)=∑k=1Nscales[Lbce(Dk(Xk,Yk),1)+ Lbce(Dk(Xk,Gk(X)),0)]
(2)
其中, (X,Y)(X,Y)是来自数据集的样本. XX 是 mm 个帧的序列, YY 是 XX 下一帧的图
像.对每个输入的尺寸 k,k,固定生成模型(G)(G), 对 DD 进行 SGD 迭代, 训练判别模型可以
将真实输入分类到 1 类, 伪造输入分类到 0 类. LbceLbce 表示的是二元交叉熵损失函数, 表
示为
Lbce(Y,Y^)=−∑i[Yi^lg(Yi)+(1−Yi^)lg(1−Yi)]Lbce(Y,Y^)=−∑i[Yi^lg(Yi)+(1−Yi^)lg(1−Yi)]
(3)
生成模型的损失函数 LGadvLadvG 表示为
LGadv(X,Y)=∑k=1NscalesLbce(Dk(Xk,Gk(Xk)),1)LadvG(X,Y)=∑k=1NscalesLbce(Dk(Xk,Gk(Xk)),1)
(4)
其中, (X,Y)(X,Y)同式(2).固定判别模型(D)(D), 使用 SGD 对 GkGk 进行迭代以最小化
损失函数, 在生成模型中, 最小化损失函数的目的就是生成的图片尽可能地去迷惑判别模
型, 使判别模型不能正确地区分真实图片和生成图片.但是在实验中, 这种损失函数的构建
会导致系统不稳定, 判别网络会生成混乱的样本来欺骗判别网络, 因此设计联合损失函数
剩余12页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3649
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功