基于多阶信息融合的行为识别方法研究.docx资源-CSDN文库

版权申诉

165 浏览量 2023-02-23 16:53:46 上传评论收藏 162KB DOCX 举报

《基于多阶信息融合的行为识别方法研究》这篇文章探讨了在智能监控、人机交互和视频检索等领域的关键问题——行为识别。行为识别是一项极具挑战性的任务，因为视频数据的多样性，如拍摄视角、背景和尺度的变化，使得行为的类间差异小而类内差异大。随着Hinton团队在ILSVRC竞赛中凭借卷积神经网络（CNN）模型AlexNet取得成功，CNN逐渐成为计算机视觉领域的核心工具。然而，传统CNN模型在处理视频时序信息上的局限性限制了其在行为识别上的表现。 Simonyan等人提出的双流卷积神经网络克服了这一问题，通过空间信息网络和时间信息网络的结合，有效地处理了视频的时空特征。空间信息网络关注单帧图像的环境和物体位置，而时间信息网络利用光流图像捕捉行为的动态变化。通过两路网络的分数融合，可以得到最终的识别结果。后续的研究工作不断优化这一框架，例如Feichtenhofer等人的工作，他们在最后一层融合连续帧的时空特征，使用3D卷积和3D池化增强特征表达。他们还研究了如何在空间流和时间流之间加入短连接，通过ST-ResNet和ST-multiplier增强了时空交互，并扩展了2D卷积核为3D卷积核，以更全面地建模视频的局部时序特征。 Wang等人引入了空间和时间的二阶统计信息，通过金字塔融合增强了双流网络的效率。他们还提出了将视频切分为多个片段，利用一阶双流网络分别提取特征，最后加权融合这些特征，形成视频的最终表示。此外，RGB-D行为识别也被广泛关注，Hu和Shahroudy等人分别提出了融合不同模态特征的方法，取得了良好的识别效果。然而，现有的双流CNN方法主要关注一阶统计信息，忽略了更高阶的信息。文章提出了一种基于二阶聚合的视频多阶信息融合方法，分为两个阶段：一阶和二阶双流网络的训练，以及基于二阶聚合的多阶信息融合。在第一阶段，双流网络在ImageNet上预训练后进行微调，提取一阶统计信息；第二阶段，通过借鉴图像分类中特征分布的二阶信息，不仅考虑多个局部特征的分类器分数，还考虑了局部特征间的统计信息，以提高识别的准确性和鲁棒性。该研究旨在通过融合多阶信息来提升行为识别的性能，尤其是利用二阶统计信息来弥补现有方法的不足。这种方法有望在复杂行为识别任务中实现更好的性能，对视频分析和理解技术的进步具有重要意义。

资源推荐

资源详情

资源评论

行为识别在智能监控、人机交互和视频检索等领域中得到了广泛的应用, 引起了众多

研究者的关注. 由于行为视频的拍摄视角、背景和尺度等方面具有多样性, 使得不同行为的

类间差异较小, 相同行为的类内差异较大, 所以基于视频的人体行为识别是非常具有挑战性

的研究课题

[1-3]

2012 年, Hinton 带领的团队在大规模图像竞赛 ILSVRC (ImageNet large scale visual

recognition challenge) 中凭借卷积神经网络(Convolutional neural network, CNN) 模型

AlexNet

[4]

赢得了该年度比赛的冠军. 此后, 基于卷积神经网络的方法在图像分类、物体检

测、图像分割和人脸识别等计算机视觉领域的研究中占据了重要的位置. 虽然卷积神经网

络在处理静态图像任务中的表现令人印象深刻, 但是由于无法建模视频中的时序变化信息,

基于卷积神经网络的行为识别方法在相当长的一段时间内仍然一直无法超越基于人工设计

特征的方法

[5]

. 2014 年, Simonyan 等

[6]

提出了双流卷积神经网络模型, 将基于卷积神经网络

的方法较好地拓展到视频分析领域. 该模型由两个独立的空间信息网络和时间信息网络构

成. 空间信息网络的输入为视频的单帧彩色图像, 是视频中的环境、物体的空间位置信息的

载体. 时间信息网络的输入是堆叠光流灰度图像, 代表时序变化信息, 用来建模行为的动态

特征. 通过融合两路网络 softmax 输出的分数, 得到最后的识别结果. 双流卷积神经网络模

型对于行为识别任务十分有效, 研究者们基于此模型提出了多种融合双流网络的方法.

Feichtenhofer 等

[7]

在最后一个卷积层融合视频序列中连续多帧图像的空间和时间特征, 然后

对融合后的时空特征进行 3D 卷积和 3D 池化操作. Feichtenhofer 等

[8-9]

进一步研究了使用残

差网

[10]

作为双流模型基本架构时的融合方法, 提出了在空间流和时间流之间加入短连接, 将

时间流信息注入到空间流之中, 以增强双流之间的时空交互. 其中, ST-ResNet

[8]

采用直接注

入的方式, 而 ST-multiplier

[9]

的时间流信息会先经过乘法门函数. 在增强了时空信息的交互

的同时, 这两个工作中都将网络中 2D 卷积核拓展成了 3D 卷积核, 扩大了视频局部特征建

模时序的范围. Wang 等

[11]

引入了空间和时间二阶统计信息, 并在最后一个卷积层以金字塔

的形式融合双流网络, 形成了更有效的视频局部时空特征. Wang 等

[12]

将视频片段分成 N 段,

利用一阶双流网络分别提取每一段的特征, 最后对每一段的特征进行加权融合, 得到最终的

视频表达.

上述工作主要研究基于 RGB 视频的行为识别. 除此之外, 学者们也研究了基于 RGB-

D 视频的行为识别问题, 即采集的视频图像中包含深度(Depth) 信息. Hu 等

[13]

提出了一种异

质特征融合方法, 通过融合动态骨架特征、动态颜色模式特征和动态深度特征, 在 4 个

RGB-D 行为数据库上取得领先性能. Shahroudy 等

[14]

提出了一种基于深度自编码的共享特定

特征分解网络, 将输入的多模态信号分解成不同的组成成分, 并提出使用混合范数作为多特

征的正则项, 可以选择不同组合的特征, 该方法在 5 个 RGB-D 行为数据库取得较好结果.

与 Hu 等

[13]

和 Shahroudy 等

[14]

的工作不同, 本文主要研究基于 RGB 视频的行为识别方法.

目前基于双流卷积神经网络的工作中, 仅融合了视频空间和时间特征的一阶统计信息,

没有考虑更高阶的统计信息. 以上的融合方法虽然在训练时获得了视频局部空间和时间特

征的一阶统计信息或二阶统计信息, 但是没有同时利用视频局部特征的一阶和二阶信息. 尽

管在训练阶段都扩大了局部特征建模时序的范围, 但在测试阶段仅考虑融合多个视频局部

在基于二阶聚合的多阶信息融合阶段, 对基于多阶信息的视频局部特征分别进行聚合.

为了获取视频局部特征之间的交互信息, 通过双线性池化

[16-17]

这样的二阶聚合方式处理视频

局部特征, 但是双线性池化后得到的表达维度较高, 将带来较大的计算和存储代价. 为了在

降低维度的同时不损失多阶信息的表达能力, 本文使用压缩双线性池化方法

[20]

对基于多阶

信息的视频局部特征分别进行聚合, 形成高阶视频全局表达. 最后, 使用表达级和分类器分

数级两种不同策略融合 4 种视频全局表达.

1. 一阶和二阶双流卷积神经网络的训练过程

第 1.1 节阐述使用一阶双流卷积神经网络模型获取视频空间和时间一阶信息的过程.

第 1.2 节是建立二阶双流卷积神经网络模型的过程, 获得了视频局部特征的二阶信息. 本文

选择 ResNet-50 作为一阶和二阶双流模型的基本架构. 对于双流网络的训练, 一般使用迁移

学习的方法在 ImageNet 数据集预训练的网络模型对不同的目标数据集上进行微调, 从而获

得更好的效果. 对于时间流网络, 为了使输入能够接受视频序列中连续多帧的水平和竖直光

流信息, 把第一层卷积核的通道数由原来的 3 通道经过复制拓展成 2L2L 通道, LL 为在视频

续中连续采样帧的个数, 在经典的双流卷积神经网络中 L=10L=10.

1.1 训练一阶双流卷积神经网络

一阶双流卷积神经网络模型由空间流网络和时间流网络两部分组成, 通常不会直接从

参数的重新初始化开始直接独立训练双流网络, 这是由于实验中所使用的行为数据集的大

小有限, 容易造成网络训练不收敛或者过拟合, 这样得到的网络效果很差. 一般使用在

ImageNet 数据集

[15]

上预训练的网络模型对不同目标数据集进行微调.

经过微调后的一阶空间流和时间流网络, 其输入端的单帧 RGB 图像和单组堆叠光流

图像尺寸分别为 224×224×3224×224×3 和 224×224×20224×224×20, 经过残差单元后, 最

后一层输出的卷积特征图尺寸为: 7×7×20487×7×2048, 其特征描述子数目为 49, 维度为 2

048. 设该输出特征为 X={xx1,xx2,⋯,xxM}X={xx1,xx2,⋯,xxM}, 其中 M=49M=49. 经过全局

均值池化层

zz=1M∑i=1Mxxizz=1M∑i=1Mxxi

(1)

zzzz 的维度为 2 048, 表示单帧 RGB 图像的表达, 即视频局部特征的一阶统计信息.

本文使用 Feichtenhofer 等

[8]

单独训练好的空间流模型和时间流模型作为初始化模型提取基

于一阶统计信息的视频局部特征.

1.2 建立二阶双流卷积神经网络模型

在一阶双流卷积模型中, 使用的预训练网络是一阶网络模型, 为建立二阶双流卷积神

经网络模型, 最直接的办法是利用预训练的二阶卷积神经网络模型. 在 ImageNet 上训练二

阶卷积神经网络的工作主要有以下两个: 分别嵌入了 MPN-COV

[18]

和 iSQRT-COV

[19]

结构层

的二阶卷积神经网络, 这两个模块通常位于网络的最后一个卷积层, 其操作均是对卷积层的

剩余17页未读，继续阅读

评论收藏

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 4513
资源: 1万+

基于多阶信息融合的行为识别方法研究.docx

基于优化PSO-BP的多特征融合图像识别算法研究.docx

基于多参数融合的行为安全监测研究.docx

人体行为识别研究综述.docx

融合运动轨迹特征的多模态群体行为识别方法.docx

基于张量的KFLD-SIFT与RVM模糊积分融合的人体行为识别方法.docx

基于机器学习的信息融合故障诊断模型研究.docx

基于传感器数据的用户行为识别模型软件工程研究.docx

基于连续图像深度学习的Wi-Fi人体行为识别方法.docx

基于Wi-Fi信号的身份识别技术研究.docx

基于多特征融合的行人检测方法.docx

人脸识别与体态识别技术融合应用研究.docx

基于深度学习的关节点行为识别综述.docx

基于深度学习的行为识别技术研究-论文.docx

基于多特征融合的Webshell恶意流量检测方法.docx

人体行为识别技术讲解学习.docx

基于深度学习的视频场景下的人体动作识别研究.docx

基于时序行为检测的工作流识别.docx

融合人体姿态估计和目标检测的学生课堂行为识别.docx

基于姿态融合的实时跌倒检测系统研究.docx

ChatGPT技术与情感识别的整合研究.docx

基于XGBoost与Stacking融合模型的恶意程序多分类检测方法.docx

结合目标检测的人体行为识别.docx

超宽带雷达人体行为感知研究进展.docx

基于物联网的智慧医疗信息化的关键技术研究.docx

基于YOLOv4的暴力行为实时检测算法.docx

基于多维度和多模态信息的视频描述方法.docx

古籍智能处理技术研究.docx

最新资源