没有合适的资源?快使用搜索试试~ 我知道了~
基于多阶信息融合的行为识别方法研究.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 50 浏览量
2023-02-23
16:53:46
上传
评论
收藏 162KB DOCX 举报
温馨提示
试读
18页
基于多阶信息融合的行为识别方法研究.docx
资源推荐
资源详情
资源评论
行为识别在智能监控、人机交互和视频检索等领域中得到了广泛的应用, 引起了众多
研究者的关注. 由于行为视频的拍摄视角、背景和尺度等方面具有多样性, 使得不同行为的
类间差异较小, 相同行为的类内差异较大, 所以基于视频的人体行为识别是非常具有挑战性
的研究课题
[1-3]
.
2012 年, Hinton 带领的团队在大规模图像竞赛 ILSVRC (ImageNet large scale visual
recognition challenge) 中凭借卷积神经网络(Convolutional neural network, CNN) 模型
AlexNet
[4]
赢得了该年度比赛的冠军. 此后, 基于卷积神经网络的方法在图像分类、物体检
测、图像分割和人脸识别等计算机视觉领域的研究中占据了重要的位置. 虽然卷积神经网
络在处理静态图像任务中的表现令人印象深刻, 但是由于无法建模视频中的时序变化信息,
基于卷积神经网络的行为识别方法在相当长的一段时间内仍然一直无法超越基于人工设计
特征的方法
[5]
. 2014 年, Simonyan 等
[6]
提出了双流卷积神经网络模型, 将基于卷积神经网络
的方法较好地拓展到视频分析领域. 该模型由两个独立的空间信息网络和时间信息网络构
成. 空间信息网络的输入为视频的单帧彩色图像, 是视频中的环境、物体的空间位置信息的
载体. 时间信息网络的输入是堆叠光流灰度图像, 代表时序变化信息, 用来建模行为的动态
特征. 通过融合两路网络 softmax 输出的分数, 得到最后的识别结果. 双流卷积神经网络模
型对于行为识别任务十分有效, 研究者们基于此模型提出了多种融合双流网络的方法.
Feichtenhofer 等
[7]
在最后一个卷积层融合视频序列中连续多帧图像的空间和时间特征, 然后
对融合后的时空特征进行 3D 卷积和 3D 池化操作. Feichtenhofer 等
[8-9]
进一步研究了使用残
差网
[10]
作为双流模型基本架构时的融合方法, 提出了在空间流和时间流之间加入短连接, 将
时间流信息注入到空间流之中, 以增强双流之间的时空交互. 其中, ST-ResNet
[8]
采用直接注
入的方式, 而 ST-multiplier
[9]
的时间流信息会先经过乘法门函数. 在增强了时空信息的交互
的同时, 这两个工作中都将网络中 2D 卷积核拓展成了 3D 卷积核, 扩大了视频局部特征建
模时序的范围. Wang 等
[11]
引入了空间和时间二阶统计信息, 并在最后一个卷积层以金字塔
的形式融合双流网络, 形成了更有效的视频局部时空特征. Wang 等
[12]
将视频片段分成 N 段,
利用一阶双流网络分别提取每一段的特征, 最后对每一段的特征进行加权融合, 得到最终的
视频表达.
上述工作主要研究基于 RGB 视频的行为识别. 除此之外, 学者们也研究了基于 RGB-
D 视频的行为识别问题, 即采集的视频图像中包含深度(Depth) 信息. Hu 等
[13]
提出了一种异
质特征融合方法, 通过融合动态骨架特征、动态颜色模式特征和动态深度特征, 在 4 个
RGB-D 行为数据库上取得领先性能. Shahroudy 等
[14]
提出了一种基于深度自编码的共享特定
特征分解网络, 将输入的多模态信号分解成不同的组成成分, 并提出使用混合范数作为多特
征的正则项, 可以选择不同组合的特征, 该方法在 5 个 RGB-D 行为数据库取得较好结果.
与 Hu 等
[13]
和 Shahroudy 等
[14]
的工作不同, 本文主要研究基于 RGB 视频的行为识别方法.
目前基于双流卷积神经网络的工作中, 仅融合了视频空间和时间特征的一阶统计信息,
没有考虑更高阶的统计信息. 以上的融合方法虽然在训练时获得了视频局部空间和时间特
征的一阶统计信息或二阶统计信息, 但是没有同时利用视频局部特征的一阶和二阶信息. 尽
管在训练阶段都扩大了局部特征建模时序的范围, 但在测试阶段仅考虑融合多个视频局部
特征的分类器分数, 没有考虑局部特征之间的统计信息. 为了解决双流卷积神经网络方法中
存在的问题, 同时受到多种模态特征融合方法的启发, 本文提出了基于二阶聚合的视频多阶
信息融合方法.
本文方法流程如图 1 所示, 主要分为两个阶段, 第 1 阶段为一阶和二阶双流网络的训
练, 第 2 阶段是基于二阶聚合的多阶信息融合. 在第 1 个阶段中, 空间流和时间流都利用在
ImageNet 数据集
[15]
上预训练的网络, 分别在目标数据集上进行微调, 微调后的双流模型可
以提取视频局部空间和时间特征的一阶统计信息. 对于视频局部特征二阶统计信息的获取,
则受到了图像分类领域研究方法的启发. 在图像分类中, 特征分布的二阶信息有着较为广泛
地应用, 对分类准确率的提升也起到重要作用. Lin 等
[16-17]
提出了一种双线性池化卷积神经
网络, 该网络将最后一层卷积层的输出特征进行外积计算, 从而得到特征分布的二阶信息,
该方法在精细粒度图像分类任务上取得了较高的准确率. Li 等提出了 MPNCOV 卷积神经网
络
[18]
及其快速算法 iSQRT-COV 卷积神经网络
[19]
, 这两个网络通过对卷积层的输出进行协方
差池化, 并对协方差矩阵进行幂正规化处理, 将正规化协方差矩阵进行取上三角矩阵并向量
化, 作为图像的表达, 该表达包含了特征分布的二阶统计信息, 这一系列的工作在大规模图
像分类任务以及精细粒度图像分类中取得了优异的性能. 考虑计算速度和收敛速度, 本方法
基于 iSQRT-COV 卷积神经网络建立了二阶双流网络模型, 用来获取视频局部空间和时间特
征的二阶统计信息.
图 1 基于二阶聚合的多阶信息融合方法流程图
Fig. 1 The flow chart of multi-order information fusion based on second-order aggregation
下载: 全尺寸图片 幻灯片
在基于二阶聚合的多阶信息融合阶段, 对基于多阶信息的视频局部特征分别进行聚合.
为了获取视频局部特征之间的交互信息, 通过双线性池化
[16-17]
这样的二阶聚合方式处理视频
局部特征, 但是双线性池化后得到的表达维度较高, 将带来较大的计算和存储代价. 为了在
降低维度的同时不损失多阶信息的表达能力, 本文使用压缩双线性池化方法
[20]
对基于多阶
信息的视频局部特征分别进行聚合, 形成高阶视频全局表达. 最后, 使用表达级和分类器分
数级两种不同策略融合 4 种视频全局表达.
1. 一阶和二阶双流卷积神经网络的训练过程
第 1.1 节阐述使用一阶双流卷积神经网络模型获取视频空间和时间一阶信息的过程.
第 1.2 节是建立二阶双流卷积神经网络模型的过程, 获得了视频局部特征的二阶信息. 本文
选择 ResNet-50 作为一阶和二阶双流模型的基本架构. 对于双流网络的训练, 一般使用迁移
学习的方法在 ImageNet 数据集预训练的网络模型对不同的目标数据集上进行微调, 从而获
得更好的效果. 对于时间流网络, 为了使输入能够接受视频序列中连续多帧的水平和竖直光
流信息, 把第一层卷积核的通道数由原来的 3 通道经过复制拓展成 2L2L 通道, LL 为在视频
续中连续采样帧的个数, 在经典的双流卷积神经网络中 L=10L=10.
1.1 训练一阶双流卷积神经网络
一阶双流卷积神经网络模型由空间流网络和时间流网络两部分组成, 通常不会直接从
参数的重新初始化开始直接独立训练双流网络, 这是由于实验中所使用的行为数据集的大
小有限, 容易造成网络训练不收敛或者过拟合, 这样得到的网络效果很差. 一般使用在
ImageNet 数据集
[15]
上预训练的网络模型对不同目标数据集进行微调.
经过微调后的一阶空间流和时间流网络, 其输入端的单帧 RGB 图像和单组堆叠光流
图像尺寸分别为 224×224×3224×224×3 和 224×224×20224×224×20, 经过残差单元后, 最
后一层输出的卷积特征图尺寸为: 7×7×20487×7×2048, 其特征描述子数目为 49, 维度为 2
048. 设该输出特征为 X={xx1,xx2,⋯,xxM}X={xx1,xx2,⋯,xxM}, 其中 M=49M=49. 经过全局
均值池化层
zz=1M∑i=1Mxxizz=1M∑i=1Mxxi
(1)
zzzz 的维度为 2 048, 表示单帧 RGB 图像的表达, 即视频局部特征的一阶统计信息.
本文使用 Feichtenhofer 等
[8]
单独训练好的空间流模型和时间流模型作为初始化模型提取基
于一阶统计信息的视频局部特征.
1.2 建立二阶双流卷积神经网络模型
在一阶双流卷积模型中, 使用的预训练网络是一阶网络模型, 为建立二阶双流卷积神
经网络模型, 最直接的办法是利用预训练的二阶卷积神经网络模型. 在 ImageNet 上训练二
阶卷积神经网络的工作主要有以下两个: 分别嵌入了 MPN-COV
[18]
和 iSQRT-COV
[19]
结构层
的二阶卷积神经网络, 这两个模块通常位于网络的最后一个卷积层, 其操作均是对卷积层的
特征进行协方差池化, 再对协方差矩阵进行幂正规化处理, 将输出作为全连接层的输入.
iSQRT-COV 是 MPN-COV 的快速近似算法.
本文以嵌入了 iSQRT-COV 结构层的网络为基础建立二阶双流网络模型. 使用在
ImageNet 上训练好的 iSQRT-COV-ResNet-50-2K 网络在行为识别数据集的 RGB 数据和光
流数据上进行微调, 双流网络微调的过程为: 将 iSQRT-COV-ResNet-50-2K 网络中的最后一
层分类层的 1 000 个节点替换成目标数据集的类别数, 其中 UCF101 数据集的类别数为 101,
HMDB51 数据集的类别数为 51. 随机初始化该层参数, 并以很小的学习率继续训练网络,
网络收敛后即得到二阶空间流网络和二阶时间流网络. 二阶双流模型将作为特征提取器, 提
取在视频序列中均匀采样的 NN 帧图像空间和时间特征的二阶信息.
经过微调后的二阶空间流和时间流网络, 其输入端的单帧 RGB 图像及单组堆叠光流
图像的尺寸分别为: 224×224×3224×224×3 和 224×224×20224×224×20, 经过残差单元, 最
后一层输出的卷积特征进入 iSQRT-COV 结构层, 首先经过一个卷积核大小为 1×11×1, 通
道数为 64 的卷积层, 使通道数由 2 048 减少到 64, 相当于特征维度由 2 048 降低到 64, 以
降低计算复杂性. 这一卷积层使得正规化协方差形成的特征表达维度降低, 从而减少全连接
层的参数, 同时又不损失性能. 将该特征记为 X={xx1,xx2,⋯,xxM}X={xx1,xx2,⋯,xxM}, 其中
MM 代表特征描述子的数目, 此时 M=49M=49. XX 首先经过协方差池化
C=XI¯¯¯XTC=XI¯XT
(2)
其中, I¯¯¯=1M(I−1MaaaaT)I¯=1M(I−1MaaaaT). II 是 M×MM×M 的单位矩
阵, aa=[1,⋯,1]Taa=[1,⋯,1]T 是 MM 维单位向量. 然后, 经过 iSQRT 结构层, 此结构层用于
近似求协方差矩阵的平方根. 协方差矩阵平方根的计算方法如下: 样本协方差矩阵是半正定
对称矩阵, 其本征分解为
C=Udiag{λi}UT, i=1,⋯,MC=Udiag{λi}UT, i=1,⋯,M
(3)
其中, UU 是正交矩阵. diag(λi)diag(λi)是 CC 的特征值矩阵, 且为对角矩阵. 则矩阵 CC
的平方根正规化结果为
Q=Udiag{λi12}UT, i=1,⋯,MQ=Udiag{λi12}UT, i=1,⋯,M
(4)
式(4)对协方差矩阵进行了平方根正规化. 由于矩阵进行本征分解的过程不能充分利用
GPU 的计算资源, 所以 iSQRT-COV 结构层使用迭代法近似求解协方差矩阵的平方根, 其输
出 QQ 经过上三角阵的向量化操作后记作 zzzz, 是单帧 RGB 图像的表达, 即基于二阶统计
信息的视频局部特征, 维度为 20802080 (约为 2 K).
2. 基于二阶聚合的视频多阶信息融合
为了验证多阶信息融合的有效性, 首先对一阶和二阶双流模型中不同网络流的组合进
行融合, 共得到 8 种不同的组合, 分别计算各组合分类器分数的均值得到最终预测. 第 3.2
节在 UCF101 和 HMDB51 数据集上对这种多阶信息融合方式进行了评估, 实验结果表明一
阶、二阶空间和时间网络流之间具有一定的互补性, 初步验证了多阶信息的有效性. 在此基
剩余17页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3651
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功