没有合适的资源?快使用搜索试试~ 我知道了~
Action recognition review 2012
需积分: 10 2 下载量 122 浏览量
2013-06-07
10:33:02
上传
评论
收藏 791KB PDF 举报
温馨提示
Action recognition ,动作识别的一篇很好的文章,全文讲解详细前言。
资源推荐
资源详情
资源评论
计算机学报投稿
1
基于视觉的人体动作识别综述
胡琼
1)
, 秦磊
1)
, 黄庆明
1),2)
1)
(中国科学院智能信息处理重点实验室, 中国科学院计算技术研究所, 北京 100190)
2)
(中国科学院研究生院,北京 100190)
摘要:基于视觉的人体动作识别是图像处理、计算机视觉、模式识别、机器学习、人工智能等多个学科的
交叉研究课题,在智能监控、人机交互、虚拟现实、基于内容的视频检索与编码等领域具有深远的理论研
究意义和很强的实用价值。本文从特征提取的方法、动作识别的方法、相关国际竞赛与常用数据库、研究
难点与可能的发展方向等方面详细阐述该领域目前的研究现状。
关键词:计算机视觉、模式识别、视觉特征提取、人体动作识别
中图法分类号:TP391
A Survey on Visual Human Action Recognition
HU Qiong
1)
, QIN Lei
1)
, HUANG Qing-Ming
1), 2)
1)
(Key Laboratory of Intelligent Information Processing, Institute of Computing Technology, CAS, Beijing 100190)
2)
(Graduate University of Chinese Academy of Sciences, Beijing 100190)
Abstract: Visual Human Action Recognition is a universal hot topic of image processing, computer vision, pattern
recognition, machine learning and artificial intelligence with wide application in video surveillance,
human-computer interaction, virtual reality, content based video retrieval, video coding, etc. In this paper, we
analyze the state-of-the-arts and advances of this field from perspectives of feature extraction, action recognition
methods as well as benchmark datasets and competitions. In addition, the problems, difficulties, challenges and
valuable future directions of human action recognition are presented.
Keywords: Computer Vision, Pattern Recognition, Visual Feature Extraction, Human Action Recognition
本课题得到国家重点基础研究发展计划(973 计划)项目课题(2009CB320906)、国家自然科学基金(61025011,61133003,
61035001,61003165)、北京市自然科学基金(4111003)资助。
胡琼,1986 年生,女,中科院计算所硕士,现于 Rutgers, The State University of New Jersey 攻读博士学位,主要研究领域为计
算机视觉与模式识别。秦磊(通信作者),1977 年生, 男,博士,助理研究员,主要研究领域为计算机视觉与模式识别,
qinlei@ict.ac.cn。黄庆明,男,1965 年生,博士,教授,博士生导师,国家杰出青年科学基金获得者,主要研究领域为多媒
体技术、图像和视频分析与理解、模式识别、计算机视觉等。
计算机学报投稿
2
1. 引言
随着影视、网络等媒体的迅速普及和发展,视
频已成为信息的主要载体,且视频数据的数量呈爆
炸式增长,每时每刻都会有大量新的内容产生。面
对海量涌现的视频数据,如何去自动获取、分析其
中包含的内容就成为一个亟待解决的问题。
大多数视频记录的都是作为社会活动主体的人
的活动,不论是从安全、监控、娱乐,还是个人存
档的角度,对视频中人体动作识别进行研究具有重
要的学术和应用价值
[1]
。基于视觉的人体动作识别
要解决的主要问题是通过计算机对传感器(摄像机)
采集的原始图像或图像序列数据进行处理和分析,
学习并理解其中人的动作和行为
[2]
。一般在运动检
测、特征提取的基础之上,通过分析获得人体运动
模式,建立视频内容和动作类型描述之间的映射关
系,以使计算机能够“看”视频或“理解”视频。
基于视觉的人体动作识别主要包含以下三个步骤:
首先是从图像帧中检测运动信息并提取底层特征;
然后是对行为模式或是动作进行建模;最后是建立
底层视觉特征与动作行为类别等高层语义信息之间
的对应关系。
早在上个世纪 80 年代,Marr 提出计算机视觉
理论
[3]
,将整个视觉感知过程划分成底层、中层、
高层三个层次,希望使计算机完全自动地以一种自
底向上的方式从二维图像序列中恢复三维结构信
息。人体动作分析属于其中的高层视觉部分,近年
来越来越多的大学、研究所、商业机构投入到该领
域的研究中。国际上的一些计算机视觉方向的权威
期刊(如 TPAMI、 IJCV、TIP、PR、CVIU)和重
要的学术会议(如 CVPR、ICCV、ECCV)也将人
体动作分析与识别作为主题内容之一。
目前, 基于视觉的人体动作识别的处理方法大
体可分为三类: 即非参数方法、立方体分析方法以
及参数化时间序列分析的方法
[1]
。非参数方法通常
从视频的每一帧中提取某些特征,然后用这些特征
与预先存储的模板(template)进行匹配;立方体分析
方法不是基于帧的处理,而是将整段视频数据看作
是一个三维的时空立方体进行分析;而参数化时间
序列分析的方法对运动的动态过程给出一个特定的
模型,并通过对训练样本数据的学习获得每一类动
作特定的模型参数,其中比较常用的模型包括:隐
马尔可夫模型(HMMS, hidden Markov Models),线性
动态系统(LDSs, Linear Dynamical Systems)等。
近年来,人体动作识别的研究任务也在逐步地
发展,对计算机视觉领域提出了一些新的挑战。从
早期受限条件下(constrained settings)简单动作的识
别逐步转向了对真实自然场景下(videos“in the
wild”)复杂动作的识别;从对单人动作识别的研究
自然地过渡到对交互动作甚至是大规模群体动作识
别的研究。
本文将分别从动作识别特征、动作识别方法、
相关国际竞赛与常用数据库、研究难点与可能的发
展方向等方面详细阐述该领域目前的研究现状。
2. 动作识别特征
从包含人体动作的视频序列中提取能够合理表
达人体运动的特征是人体动作识别中至关重要的一
环,直接影响到动作识别的准确度和鲁棒性,且同
一特征对不同类别人体动作的描述能力并不相同。
因此,我们依据视频质量和应用场景的不同,往往
要选用不同类型的特征,这与具体的应用场合以及
研究者所关心的动作类别均有关系。比如:在远景
情况下,只需提取目标整体的运动轨迹进行轨迹分
析;而近景情况下,则需利用从图像序列中提取的
信息对目标的四肢与躯干进行 2D 或 3D 的建模。
在目前的研究工作中,形状,轨迹,速度,光
流,时空兴趣点等特征均得到了广泛的应用,大致
可分为以下四类(如表 1 所示):基于轮廓和形状的
静态特征, 基于光流或运动信息的动态特征,基于
计算机学报投稿
3
时空立方体的时空特征以及描述性特征。
2.1 静态特征
静态特征一般包括运动物体的大小、颜色、边
缘
[29]
、轮廓、形状
[30]
和深度等,能够较好地描述
人体动作的细节,比如:完整的人体外部轮廓
(Contour)、人体剪影(Silhouette)、包括运动人体
的方形区域或 Blob、运动躯干上提取的关键点或是
各个肢体等。
Carlsson 等通过从动作视频中提取到的关键帧
和保存的动作原型之间做形状匹配来完成动作识别
[29]
,其中,形状信息是以通过 Canny 边缘检测器检
测到的边缘数据来表示的(图 1 (a))。这种方法能够
容忍图像和样本之间一定程度的形变且能够准确识
别不同人体姿态形成的极度相似的形状。Cheung 等
将传统的仅适用于静态对象的 SFS(Shape from
Silhouette)方法扩展到做刚体运动的对象
[30]
,并 进
一步将其扩展到铰接体对象上(图 1 (b)),用于获取
人体各个部分的形状和运动信息,并通过解铰接部
件之间简单的运动约束方程来估计出人体关节所在
位置,从而实现动作识别的目的。Liu 等用菲德勒嵌
入(Fiedler Embedding)的方法将旋转图像(Spin
Image,图 1 (c))和局部时空立方体嵌套到同一空间
中
[13]
。
表 1 动作识别中常用特征分类表
类别 形式 代表文章
静态特征 大小、颜色、轮廓、形状、深度
[13] [29] [30] [31] [32]
动态特征 光流、速度、速率、方向、轨迹
[33] [34] [6] [22] [35] [8] [36]
时空特征 时空形状、时空兴趣点、时空上下文
[4] [37] [38] [39] [19] [40] [40]
描述性特征 属性、场景、物体、姿态
[53] [54] [59]
图 1 几种动作识别中用到的静态特征
近期,微软剑桥研究院的 Shotton 等人提出从一
幅深度图像中快速准确地预测人体关节三维时空位
置的方法,具有姿态、形体以及衣着不变性等优势,
相对于整体骨架最近邻匹配的方法更具通用性
[31]
。
而针对一些更细微的人体动作,需要提取躯干、
四肢等不同部位的局部形状信息,进而组成全局特
征来对动作进行识别,如 Park 等使用椭圆模型和凸
边形模型对人体的轮廓形状进行拟合
[32]
。
基于边缘和形状轮廓等的静态特征可以有效描
述当前场景中对象的运动模式,但边缘与轮廓信息
的获取并不容易,且在背景复杂,运动对象较多的
场景面临更加严峻的考验。因而有一些略过物体分
割、目标检测和对象跟踪等步骤而直接从图像序列
中提取运动信息或是从时空立方体的角度出发的特
征涌现,下面将逐一介绍。
2.2 动态特征
运动信息一直被认为是计算机视觉中非常重要
的线索,早在 1973 年 Johansson 通过经典的 MLD
(a) 边缘形状
[29]
(b)
SFS
[30]
(c) Spin Image
[13]
剩余17页未读,继续阅读
资源评论
FocusYGL
- 粉丝: 0
- 资源: 3
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功