第
39
卷第
6
期
杭州电子科技大学学报(自然科学版
)
Vol.39
No.6
2019
年
11
月
Journal
of
Hangzhou
Dianzi
University
(Natural
Sciences
)
Nov.
2019
DOI
:
10.13954/j.
cnki.
hdu.
2019.
06.
004
基于卷积神经网络的人体行为识别方法
陈华华
,
查永亮
(杭州电子科技大学通信工程学院
,
浙江
杭州
310018
$
摘要
:
为了更高效地识别视频中的人体行为
,
解决长时间视频密集采样导致计算成本过高的问题
%
提出一种深度残差网络和
BN-Inception
网络相组合的空间时间网络
。
用深度残差网络构建视频
的空间网络
,
并用
BN-Inception
网络构建视频的时间网络
。
通过稀疏采样的方式提取视频中的图
像和光流特征图
,
并将视频图像送入空间网络训练
,
将光流送入时间网络训练
,
得出各自的行为识
别准确率
,
再将空间网络和时间网络的输出得分进行融合
,
得出最终识别准确率&在
UCF+01
和
HMDB-51
数据集上分别取得了
94
5%
和
70.
1%
的准确率
,
优于很多行为识别方法
&
关键词
:
深度残差网络
;
BN-Inception
网络
;
空间时间网络
;
光流
中图分类号
:
TP39!
41
文献标志码:
A
文章编号
:
1001-9146(2019)06-0018-06
0
引言
视频行为识别是计算机视觉的研究热点
,
广泛应用于实际生活
,
如视频监控
、
人机交互
、
无人驾驶技
术等
&
基于视频的人体行为识别的关键在于如何提取有效特征来充分利用视频中的时空信息
。
目前,
最常用的方法是采用时空兴趣点
1
或者轨迹
2
的手工特征
,
还有使用
Fisher
向量编码
3
的无监督特征
编码方法来生成视频级的表示
。
在行为识别中
,
外观和运动是两个重要且互补的特征
,
能否有效提取和
利用相关信息决定了识别系统的性能
&
由于视频中连续帧的外观非常相似
,
因此视频行为识别模型需要对多个层次的外观进行时间推
理
。
在行为识别中
,
除了图像外观以外
,
还有一个挑战是建模复杂的时间关系
&
虽然卷积神经网络
(Convolutional
Neural
Networks,CNN)
在图像识别的任务中取得了巨大成功
,
但是如何利用深层网络
对视频的时间演化进行有效建模仍不清楚
&
目前
,
视频的时间维度建模主要有短期运动建模和长期时
间关系建模
Wang
L.
M.
等
5
提出时间分段网络的方法
,
通过在整个视频上建立长期的时间关系
模型进行行为识别
,
将视频分解为空间部分和时间部分
,
空间部分用单个帧表示外观
,
时间部分以运动
帧的形式表示相机和物体的运动
。
该网络由空间网络和时间网络组成
,
均使用批归一化开端
(Batch-
Normalized
Inception
,
BN-Inception
)
网络
6
来实现
。
对于空间网络
,
更深的网络可以提取视频中更丰
富的语义信息
,
若通过简单的堆叠
BN-Inception
网络来增加网络的深度容易导致梯度消失
,
使得训练
和测试效果更差
,
限制了空间网络的识别准确率
。
残差网络
(Residual
Neural
Network
,
ResNet
)模型⑺
作为经典的卷积神经网络模型
,
使用快捷连接的网络结构
,
在网络中避免了上述问题
,
其扩展性很强
,
迁
移到其他图片数据上也有很好的泛化能力
&
为此
,
本文提出基于
ResNet
和
BN-Inception
的空间时间
网络模型
,
其中空间网络使用
ResNet
结构
,
时间网络使用
BN-Inception
结构
,
将两者的识别准确率进
行融合
,
使得最终行为识别准确率得到进一步提升
&
收稿日期
=2019-01-21
基金项目
:
国家自然科学基金资助项目
(
61372157
)
作者简介
:
陈华华
(
1975
—
),
男
,
副教授,研究方向
:
图像处理
、
计算机视觉
、
模式识别
&
E-mail
:
iseealv@
hdu.
edu.cn
。