【免费】基于深度图像的人体行为识别综述_孙彬1_基于深度图的行为识别资源-CSDN文库

需积分: 0 161 浏览量 2022-08-04 15:49:43 上传评论收藏 1.6MB PDF 举报

特征的方法［13-14］等。然而，这些方法受限于二维图像信息，往往难以准确捕捉到人体动作的三维细节，特别是在复杂背景下或者光照变化条件下，识别效果易受影响。深度图像，作为三维视觉传感技术的产物，为解决这一问题提供了新的思路。它通过红外传感器捕获场景中物体的距离信息，生成反映物体深度分布的图像，从而能够提供更加丰富的三维结构信息。与传统的RGB图像相比，深度图像不受光照变化影响，且能更直观地反映出人体姿态和动作的空间结构，因此在人体行为识别方面具有显著优势。近年来，基于深度图像的人体行为识别技术取得了显著的进步。深度图像的预处理技术是关键步骤，包括噪声去除、背景减除、身体部位分割等，以提高后续特征提取的准确性。例如，使用体素化或骨架提取方法来简化深度图像，提取人体的关键关节信息，如脊椎、肩部、肘部和手腕等。在特征提取方面，常见的有基于几何特征的方法，如关节之间的距离和角度，以及人体轮廓的形状特征；还有基于运动特征的方法，如光流、速度向量场等，这些特征可以捕捉动作的动态变化。此外，基于深度图像的时间序列特征，如深度序列的直方图、时序差异图等，也被广泛用于描述动作的时空模式。为了评估和比较不同识别方法的性能，研究者们创建了许多公开的人体行为数据集，如Microsoft Kinect SDK提供的Kinect Dataset，CMU mocap数据库，以及Weizmann Action Dataset等。这些数据集包含多种不同动作，有的还涉及多视角、多人同时行动的场景，为研究者提供了实验平台。通过对这些数据集上的实验结果进行对比分析，可以揭示各种方法的优缺点，为未来的研究提供参考。在机器学习算法的应用上，传统的支持向量机(SVM)、随机森林(RF)等已被广泛用于行为识别。随着深度学习的兴起，尤其是卷积神经网络(CNN)和递归神经网络(RNN)的发展，深度学习模型在深度图像的行为识别任务中展现出强大的学习能力和泛化能力。例如，利用CNN提取深度图像的高级特征，结合RNN捕捉动作的时序信息，构建端到端的深度学习模型，可以进一步提升识别精度。未来，人体行为识别技术的发展趋势可能包括以下几个方向：1) 深度学习模型的优化与创新，如引入注意力机制、自注意力网络等提高模型的解释性和效率；2) 多模态融合，结合RGB-D数据、声学信息等多源信息进行行为识别，以提高鲁棒性；3) 实时性和能耗优化，适用于移动设备和物联网环境；4) 社会心理学因素的融入，理解行为背后的意图和情感，实现更智能的交互。基于深度图像的人体行为识别是计算机视觉领域的一个热点，它结合了三维感知和机器学习的优势，为实现智能化的监控、交互和分析提供了有力工具。随着技术的不断进步，我们期待这一领域的研究成果能更好地服务于社会各个领域的需求。

资源详情

资源评论

资源推荐

第

卷第

期

2018

年

月

北京工业大学学报

JOURNAL OF BEIJING UNIVERSITY OF TECHNOLOGY

Vol． 44 No． 10

Oct． 2018

基于深度图像的人体行为识别综述

孙彬

，

孔德慧

，

张雯晖

，

贾文浩

(

北京工业大学信息学部多媒体与智能软件技术北京市重点实验室

，

北京

100124)

摘要

深度图像降低了人体三维运动信息在视觉获取过程中的维度损失

，

使得与传统彩色图像相比

，

基于深度图

像的人体行为识别研究在特征提取

、

表示及识别精度等方面体现出技术优势

，

受到广泛关注

，

因此

，

全面

、

深入地综

述了基于深度图像的人体行为识别的研究现状

．

首先

，

对近年来提出的基于深度图像的人体行为识别的各种方法

进行整理

、

分类

;

然后

，

对多个常用的人体行为公开数据库进行介绍

，

并在

个数据库上对不同方法的识别率进行

对比分析

;

最后

，

阐述了人体行为识别技术未来可能的发展趋势

．

关键词

人体行为识别

;

特征提取

;

深度图像

;

人体关节点

;

机器学习

中图分类号

: TP 391

文献标志码

: A

文章编号

: 0254 － 0037( 2018) 10 － 1353 － 16

doi: 10． 11936 /bjutxb2017040051

收稿日期

: 2017-04-27

基金项目

国家自然科学基金资助项目

( 61370120) ;

北京市自然科学基金资助项目

( 4162009)

作者简介

孙彬

( 1990—) ，

男

，

博士研究生

，

主要从事模式识别方面的研究

，E-mail: sunbin1357@ emails． bjut． edu． cn

通信作者

孔德慧

( 1968—) ，

女

，

教授

，

博士生导师

，

主要从事模式识别

、

虚拟现实与图形学方面的研究

，E-mail: kdh@ bjut． edu． cn

Survey on Human Action Recognition From Depth Maps

SUN Bin，KONG Dehui，ZHANG Wenhui，JIA Wenhao

( Beijing Key Laboratory of Multimedia and Intelligent Software Technology，Faculty of Information Technology，

Beijing University of Technology，Beijing 100124，China)

Abstract: Depth maps reduce the dimension loss of 3D human motion information in the process of vision

acquisition，therefore depth map-based human action recognition reflects technical advantages in fields of

feature extraction，representation and recognition accuracy，compared with traditional RGB image，and

attracts the extensive attention． The research status of depth map-based human action recognition was

summarized in this paper． First，the existing methods of recognizing human action from depth maps were

collated and classified． Then，multiple publicly available human action datasets were introduced，and the

accuracies of several datasets in different methods were compared． Finally，the possible future directions

of human action recognition were analyzed．

Key words: human action recognition; feature extraction; depth map; body joint; machine learning

基于计算机视觉技术的人体行为识别在人类生

活的众多领域得到广泛应用

，

如视频监控

、

运动检

索

、

人机交互

、

智能家居以及医疗保健等

［1-4］

．

传统

的基于彩色

( RGB)

相机获取视频序列进行行为识

别的方法

［5-10］

有很多

，

如基于时空特征的方法

［11-12］

和基于运动轨迹特征的方法

［1，13-14］

．

但是

，

基于

RGB

信息的人体行为识别具有多方面的挑战

复杂背景

、

遮挡

、

阴影

、

尺度变化以及不同的光照

条件都会对识别带来很大的困难

，

这也是基于

RGB

行为识别的难点

; 2)

同样的动作从不同的视角会生

成不同的视图

; 3)

不同的人表演同一个动作会有很

大的不同

，

并且

个不同的动作类又可能会有很大

的相似性

． RGB

视觉信息所存在的这些固有缺陷限

制了基于

RGB

信息的人体行为识别的性能

．

ChaoXing

北京工业大学学报

2018

年

近几年

，

随着传感器技术迅速发展

，

高清的深度

相机逐渐普及

，

例如

Microsoft Kinect． Kinect

的成本

低

，

尺寸小

，

并且可以很容易地获得高分辨率的深度

图像

( depth map) ．

深度图像中的每个像素记录的

是场景的深度值

，

而不是光强度

．

深度相机的引入

拓展了计算机系统感知

视觉世界的能力

，

在一

定程度上弥补了感知过程中将三维对象信息捕获为

二维视觉信息时的维度信息缺失

．

与

RGB

视觉信

息相比

，

深度图像通过所提供的场景的结构信息可

以极大地减轻遮挡

、

复杂背景等因素的影响

，

并且在

不同的光照条件下

，

颜色和纹理具有不变性

．

从单

个视角

，

如果不同的行为有相似的

投影

，

深度图

像可以提供额外的体形信息来区分不同的行为

．

此

外

，Kinect

还提供了强大的骨架追踪算法

［15］

，

该方

法可以实时输出每一帧

人体关节点的位置

．

人

体的骨架关节点不会受尺度

、

视角变化的影响

，

因

此

，

利用

Kinect

所提供的人体骨架关节点进行行为

识别是一个有前途的研究方向

．

近几年来

，

在基于深度图像的人体行为识别方

面

，

研究者们以提取更具有行为区分能力的人体运

动深度特征作为核心问题

，

提出了大量的基于深度

图像的人体行为识别的方法

，

并构建了多种人体行

为深度图像数据库以评估识别效果

．

本文将综述基

于深度图像的识别方法

，

并介绍相关深度图像数据

库

，

最后对人体行为识别技术的发展趋势进行探讨

．

特征提取及表示方法

解决识别问题的一般流程包括

个环节

基于

输入信息的特征提取以及基于特征表示的对象分

类

．

因此

，

采用这一模式的人体行为识别方法

，

无论

是基于彩色图像

，

还是基于深度图像

，

仅就对象分类

的层面而言

，

二者之间不存在本质差异

．

而由于输

入数据形式的不同所导致的特征提取与表示方面的

差异

，

是使

种识别方法产生本质差异的关键因素

．

因此

，

本文将对基于深度图像的人体行为识别方法

在特征提取与表示方法方面集中展开论述

．

深度图像作为一种包含深度信息的三维空间平

面投影图

，

其优势在于以

2. 5D

的形式提供了对象

的空间几何信息

，

基于深度图像的人体行为特征提

取与表示也势必围绕几何要素来实现

．

对现有识别

方法所提取特征进行分析

，

根据其所对应的信息维

度可大体分为

类

点特征

、

线特征

、

面特征和体特

征

(

如表

所示

) ．

基于点特征的方法是针对点

(

关节点

、

兴趣点

等

)

提取特征

;

基于线特征的方法是根据点和点之

间的关系所构成的线来提取特征

;

基于面特征的方

法主要是通过在曲面上计算曲面法线来提取特征

;

基于体特征的方法主要是通过在

( x，y，z)

的三维体

或

( x，y，z，t)

四维时空体提取特征

．

上述

类特征的

共同点在于均在某种意义下体现了人体行为的几何

不变性

，

适用于进行人体特征表示与分类

;

而其差异

的本质在于信息关联程度的变化

，

即信息自由度的

不同

．

表

1 4

种特征的含义

Table 1 M eanings of the four features

名称含义

点特征表示深度图像中的关节点

、

兴趣点信息

线

特征在点特征的基础上建立点点关联信息

面特征利用点特征估算相应表面的法线信息

体特征

在深度图像

(

序列

)

的

3D( 4D)

重建空间

进行特征提取

1. 1

基于点特征的的方法

对

RGB

信息提取时空兴趣点

( spatio temporal

interest points，STIPs)

特征已经被证明是一种有效的

描述方法

，

它将人体动作信息以一些不关联的点的

形式进行描述

．

兴趣点通过描述场景的局部

，

提供

了图像内容的紧凑表示

，

这样增强了对混乱

、

遮挡和

类内差异的鲁棒性

．

目前

，

存在很多检测时空兴趣

点和计算局部特征描述子的方法

［16］

．

使用比较多

的兴趣点的检测方法包括

Harris3D

检测

［17］

、

Hessian

检测

［18］

和

cuboid

检测

［19］

．

提取特征描述子

的方法包括方向梯度直方图

( histogram of oriented

gradient，HOG )

［20］

、

尺度不变特征变换

( scale

invariant feature transform，SIFT)

［21］

、

加速鲁棒特征

( speed up robust feature，SURF)

［18］

和核描述子

［22］

．

近几年

，

国内外研究学者将提取时空兴趣点的方法

应用到深度图像中

． Zhu

等

［23］

尝试了不同兴趣点检

测和特征描述子的结合

． Ni

等

［24］

使用了

Harris3D

检测和

HOG /

光流场方向直方图

( histogram of

oriented optical flow，HOF)

描述子进行行为识别

．

文

献

［25-27］

也采用了

Harris3D

检测提取时空兴趣

点

，

不同的是

Zhao

等

［25］

结合了

HOG /HOF

和局部

深度模式

( local depth pattern，LDP)

表示特征

． LDP

特征用兴趣点作为局部块

( patch)

的中心

．

局部块

的大小与兴趣点的深度值有关

．

每一个局部块都会

被分成网格

( grid) ，

再对每一个网格计算平均深度

4531

ChaoXing

第

期孙彬

，

等

基于深度图像的人体行为识别综述

值

，

并计算

个网格平均深度值的差

．

这种差的特

征向量就是所提出的

LDP

特征

． Chen

等

［26］

则是将

深度图像映射到

个正交面

，

在每个面提取时空兴

趣点

、

轨迹形状和运动边界

．

并使用了

HOG、HOF

和运动边界直方图

( motion boundary histograms，

MBH)

描述子

． Cheng

等

［27］

通过计算中心点与附近

的

个点的深度值来构造比较编码描述子

( comparative coding descriptor，CCD) ． Harris3D

检测

等方法本身是针对

RGB

图形的

，

但是深度图像中又

有很多的噪声

．

为了解决这个问题

，Xia

等

［28］

使用

滤波方法从深度视频提取

STIPs ( depth STIPs，

DSTIPs) ，

并使用深度立方体相似特征

( depth cuboid

similarity feature ，DCSF)

描述局部

深度立方体

．

DSTIPs

可以有效地抑制噪声

(

如图

所示

) ，DCSF

则是基于自相似性来描述

立方体的时空形状

．

图

1 DSTIPs

［28］

x-y

面上的结果

Fig． 1 DSTIPs

［28］

projection in the x-y plane

Xia

等

［29］

提出了一种基于

关节点位置直方

图的表示方法

，

通过修正的球坐标系统将

空间

分成

个空间

( bins) ，

然后将关节点位置投影到这

个

bins

上构成直方图

，

并使用线性判别分析

( linear discriminant analysis，LDA)

对特征进行降维

并聚类成

个姿态视觉单词

，

再将深度序列编码到

连续的单词中

，

最后通过隐马尔可夫模型

( hidden

图

关节点特征提取与表示的过程

［31］

Fig． 2 Process of feature extraction and representation of joints

［31］

Markov model，HMM)

分类器进行分类

． Salih

等

［30］

首先提取人体关节点的球面角

，

再将每一帧关节点

的球面角投影到修正球谐

( modified spherical

harmonics，MSHs)

的基函数

，

并用

MSHs

的协方差作

为视频序列的描述子

．

1. 2

基于线特征的的方法

Yang

等

［31］

提出了一种基于特征关节点

( EigenJoints)

的行为识别方法

(

如图

所示

) ．

该方

法

通过计算

关节点之间的位置关系来描述一个

动作序列

，

包括静态的姿态特征

、

连续的运动特征和

偏移特征

．

静态的姿态特征表示当前帧关节点间的

位置差

，

连续的运动特征表示关节点在当前帧与前

一帧的位置差

，

而偏移特征则是通过计算关节点在

当前帧与初始帧的位置差构成

，

这三通道特征的组

合构成了初步的特征表示

．

然后

，

对这些特征进行

归一化

，

通过主成分分析法

( principal components

analysis，PCA)

降维来减少冗余度和噪声

．

最后

，

使

用朴素贝叶斯最近邻

( naive bayes nearest neighbor，

NBNN)

分类器进行分类

．

文献

［32-33］

也都使用了静态的姿态特征

，

不同

的是

等

［32］

选择了关节点间距离的相对变化最大

的

个关节点对

，

并将其构成关节点空间图

．

另外

，

使用时域金字塔协方差描述子表示关节点空间图中

关节点的位置

，

并使用训练的图核

( graph kernel)

和

支持向量机

( support vector machine，SVM)

进行分

类

． Luo

等

［33］

使用稀疏编码的方法学习静态特征

，

并用基于最大池化

( max pooling)

的时域金字塔结构

对特征进行直方图表示

，

最后采用

SVM

进行分类

．

文献

［34］

计算了连续的运动特征和静态的姿态特

征

，

不过

Jiang

等

［34］

所提取的静态的姿态特征首先

选择一个关节点作为基点

，

然后计算每个关节点与

基点的位置差

．

该方法还通过一种加权图描述两通

道的特征

，

这种加权图可以处理关节点不稳定

、

序列

5531

ChaoXing

剩余15页未读，继续阅读

评论收藏

内容反馈

白绍伟

粉丝: 17
资源: 287

基于深度图像的人体行为识别综述_孙彬1

评论0

最新资源

基于深度图像的人体行为识别综述_孙彬1

评论0

人体动作行为识别研究综述1

人体动作行为识别研究综述

基于深度学习模型人体行为识别

基于深度学习的人体行为识别综述

20210811-信达证券-基金经理画像21：富国基金孙彬.pdf

20210811-信达证券-基金经理画像21：富国基金孙彬.rar

一款基于Golang开发的命令行爬虫工具.zip

一个基于自动遍历的 App 爬虫工具.zip

一款基于 Electron + Puppeteer 的可视化爬虫工具.zip

基于深度学习的人体行为识别算法综述

基于视觉的人体动作识别综述

基于深度学习的人体行为识别算法综述.pdf

一个基于Node.js的简单易用的爬虫工具，可以方便地获取指定网页的内容并进行自定义格式化处理.zip

低碳钢.pdf

基于Java技术的分布式异构数据库Web访问技术.pdf

一个简单的页面爬虫工具，适用爬取不太复杂的网页中的图片和文本 .zip

网页版nodejs爬虫工具.zip

基于人体行为的目标跟踪综述

基于深度学习的人体行为识别研究.pdf

基于深度学习的人体行为识别算法.pdf

人体行为识别研究综述.docx

首个开源学校教务管理系统、网站布局自动化、成绩查询.zip

使用Python语言编写的图形化新冠肺炎疫情爬虫工具 .zip

超全开源Python爬虫工具箱.zip

风铃虫是一款轻量级的高效爬虫工具，配置简单，方便二次开发.zip

Python爬虫工具库(异步爬虫类、线程池爬虫类、爬虫实用函数).zip

最新资源