没有合适的资源?快使用搜索试试~ 我知道了~
群体行为识别深度学习方法研究综述.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 49 浏览量
2022-11-28
20:30:48
上传
评论
收藏 2.08MB DOCX 举报
温馨提示
试读
26页
群体行为识别深度学习方法研究综述.docx
资源推荐
资源详情
资源评论
群体行为的识别与理解是计算机视觉领域的热点问题,它是一个多学科交
叉融合的研究方向,涉及了模式识别、人工智能、机器学习、计算机视觉等众
多学科的研究技术。该方向是国家自然科学基金委员会设立的重大研究计划“视
听觉信息的认知计算”的重要研究内容
[1]
,是“国家中长期科学和技术发展规划纲
要”中前沿技术类智能感知技术方向的重点研究对象
[2]
。
群体行为识别的研究不仅具有重要的理论价值及科学意义,在公共安全保
障方面,亦具有非常重要的应用价值。随着城市化建设的大举推进,城市人口急
剧增加,国际恐怖主义日益猖獗,社会公共场所中因群体行为异常引发的拥堵及
踩踏事件频频发生,造成了社会财产的巨大损失,对公共安全产生了巨大损害。
对人群行为实时分析,及时发现异常行为能够有效地阻止事态的恶化,甚至避免
安全事故的发生。中国工业和信息化部在“中华人民共和国国民经济和社会发
展第十三个五年规划纲要”中
[3]
亦提出健全公共安全体系,为实现应对重大公共
风险从被动应付型向主动防范型的重大转变、从传统经验型向现代高科技型的
战略转变提供了支撑。
目前,群体行为识别技术广泛应用于智能监控、基于内容的视频检索、视
频自动分析与标注、运动分析等应用领域,对交通、公安刑侦等众多行业也都
有积极的推动作用。对视频中的群体行为进行分析识别是一项非常重要且意义
重大的科学任务。
长期以来,科研人员对群体行为识别进行了各种各样的探索。群体行为是
人与人、人与物及人与环境交互的集合,具有多元性、动态性和集体性等多重
特征。鉴于这些特征,群体行为的分析识别涉及到了场景分割、目标检测、目
标跟踪、个体行为识别等众多视觉处理技术。此外,由于群体行为识别对图像
序列进行分析,该问题从时间域与空间域对信息进行处理。这导致了群体行为
识别存在算法复杂度高、处理的数据规模大等问题。这为科研工作者尝试新思
路、研究新技术解决时序问题提供了更为开阔的空间。
随着技术的发展及对该问题认识的不断深入,群体行为识别算法
[4,5,6,7,8]
层出
不穷。根据群体行为识别算法的建模模型,现有方法大致可以分为两大类,即基
于传统的概率统计模型的方法和基于深度网络模型的方法。传统的概率统计模
型主要有概率图模型(graphical models)
[9,10,11,12]
和语法模型(grammar models)
[13,14]
等。深度网络模型则主要包括了卷积神经网络模型(convolutional neural
network,CNN)
[15]
、双流网络模型(two stream network)
[16,17]
、长短时记忆神
经网络(long short-term memory,LSTM)模型
[18]
等。这些模型涵盖了视觉处
理技术从传统机器学习向深度神经网络学习演化的过程中各种主流的群体行
为识别方法。这些模型各有其特色,亦衍生出了这些模型之间的交叉融合。下
面主要对基于深度学习的群体行为识别方法进行分析介绍。
目前,大部分群体行为识别的研究都采用了深度神经网络模型
[19,20]
,亦或在
深度网络架构下结合语法模型或图模型的方法
[21,22,23,24]
。鉴于群体行为识别的
这种研究现状,首先给出了群体行为识别问题的定义描述,介绍了群体行为识别
通用的识别流程;然后,概括总结了群体行为识别所面临的主要挑战;继而,重点
归类梳理了在深度学习架构下,群体行为识别常用的主流的深度网络模型,对其
进行了对比和讨论;最后,对常用的公共的群体行为数据库进行了介绍和对比之
后,总结展望了未来可以探索的研究方向和研究思路。
1 群体 行 为 识 别 问 题 定 义
Moeslund 等 人
[25]
和 Poppe
[26]
将 人 体 行 为 分 为 了 3 个 层 次 ,即 基 本 动 作
Action Primitive、行为 Action 与活动 Activity。Turaga 等人
[27]
指出,行为 Action
是由一个人执行的持续一段时间的简单的运动模式,活动 Activity 是由多人在
某种环境或条件限制下执行的可以交互的复杂的行为 Action 序列。新华字典
定义群体行为是团体行为的一种特殊形式,由两个或更多的个体为了实现某个
特定的目标,而形成的相互影响、相互作用、相互依赖的人群集合体。后续介
绍中,活动 Activity 特指群体行为。
科研工作者对群体行为的识别进行了大量的探索,早期的群体行为识别,主
要是对群体行为类别的识别以及对识别检测出的行为的定位。对这类群体行为
的识别可以定义为,对于给定的视频序列 X={x1,x2,⋯,xt,⋯,xn},经过一系列的特
征检测提取、特征分类等获取该视频中群体行为的类别 Ai∈A 及群体行为所在
的时空范围 。{xtstart[x,y;w,h],⋯,xtend[x,y;w,h]}。其中 xt 是视频序列的第 t 帧
图 像 , A 指 群体 行 为数 据 集中 包含 的 群体 行 为类 别的 集 合, xtstart[x,y;w,h]和
xtend[x,y;w,h]分 别 指 群 体 行 为 在 第 tstart 帧与 第 tend 帧 图 像 中 的 矩 形 区 域 。
随着目标检测、跟踪等计算机视觉相关技术的发展,群体行为识别得到了
进一步的深化。大量的群体行为识别方法,除了对群体行为类别的识别,还涵盖
了一些对群体行为识别有辅助作用的相关任务去识别群体行为,如人体检测、
跟踪等。目前,对群体行为的识别与理解包含了对参与个体的检测、个体级别
的行为识别与场景级别的行为识别。该类群体行为的识别可以定义为,对于给
定的视频序列 X={x1,x2,⋯,xt,⋯,xn},经过一系列的检测分类等技术的处理,获得
了参与群体行为的各人体所在位置的矩形区域 [x,y;w,h],及主要的参与人体的
个体行为类别 ai∈Aind 和群体行为类别 Ai∈A。其中 Aind 指群体行为中涉及
到的个体行为类别的集合, A 是群体行为类别的集合。
调研发现,目前基于深度学习的群体行为识别算法大都经历了 3 个阶段的
处理分析。如图 1 所示,首先通过各种网络架构进行特征学习和提取,对群体行
为场景中的人体进行检测;然后,基于检测到的人体,采用多目标跟踪技术对人体
进行跟 踪处理,并利用获得的人体跟踪序列,对其 进行个体行为表征,并识别其
行为;在识别了各群体行为的参与者的个体行为类别以后,结合群体行为所处的
场景信息及人体与人体、人体与场景的交互信息对群体行为进行识别。在该通
用群体行为识别流程框架中,人体检测与跟踪在群体行为识别中属于低级的信
息处理,个体行为识别属于中级的信息处理,群体行为识别属于高级的信息处理。
图 1
图 1 群体行为深度识别流程
Fig.1 Workflow of deep recognition of collective activity
2 挑战
群体行为识别,作为计算机视觉领域一个比较高层级的语义分析问题,它除
了要面对人体检测、多人体跟踪、个体行为识别等所面临的挑战,还要解决该
问题本身所涉及的众多挑战。群体行为涉及到了稀疏至高密度场景等各种情景
下的人与人、人与活动场景的交互,群体活动场景相对来说比较复杂,比较容易
受到群体行为活动以外事物的影响,例如经过的汽车的遮挡、建筑物上动态广
告屏的干扰等。本文总结了群体行为识别所面临的一些主要挑战。
(1)群体行为所处环境异常混乱,或存在较为严重的遮挡问题。
(2)群体行为视频为手持设备所拍摄,且存在较为严重的抖动及频繁的画
面切换。
(3)群体行为由于个体行为习惯问题存在较大的类内差异及类间相似性。
(4)群体行为的精确定位识别任务,涉及到人体检测、人体跟踪、个体行
为识别等众多视觉问题,由于对象为三维视频数据,识别任务复杂度高、计算工
作量大。
(5)现有的群体行为识别数据库还没有形成体系规模,行为种类纷繁杂乱,
行为类别定义及标签信息的标注没有统一的规范,限制了相关研究工作的开展。
3 基于 深 度 架 构 的 群 体 行 为 识 别 模 型
近年来,深度网络模型在图像处理领域快速发展,科研工作者基于深度架构
模型对群体行为识别进行了大量的探索,并获得了显著的识别效果。按照使用
的深度神经网络的架构的不同,现有的群体行为识别方法大致可以分为四类,即
基于卷积神经网络(CNN)的识别模型
[28,29]
、基于双流网络的算法模型
[16,17]
、
基于循环神经网络(RNN)或长短时记忆神经网络(LSTM)从时序角度对群
体行为进行处理的识别模型
[5,30]
和基于 Transformer 从时序角度对群体行为识
别的算法模型
[6,31]
。各模型的大部分算法
[30,31,32,33]
直接从 RGB 视频序列中学习
行为特征,亦有部分算法
[34,35]
基于骨架序列信息对行为进行表征。下面从网络架
构、算法模型的优缺点、实验效果等方面对这些算法模型展开论述。
3.1 基 于 CNN/3DCNN 的 群 体行 为 识 别 模型
卷积神经网络
[36]
由于其在空间域优越的特征表征能力,在图像的分类、检测
与分割等任务中取得了显著的效果。Ji 等人
[28]
克服了其不能利用时序特征的缺
陷,将其从 2D 卷积扩展为 3D 卷积,让其能够从时空两个维度对三维的行为视频
数据进行处理。如图 2 所示,展示了 2D 卷积模型与 3D 模型的对比,图 2(b)
中卷积核的时间维度为 3,共享权重采用了相同颜色的连接线标示。从该图中可
以发现,3D 卷积模型不仅能够提取空间域的信息,亦能够捕捉到连续的视频帧
中的时序运动信息,它更适用于行为识别等时序问题。基于 CNN/3DCNN 网络,
剩余25页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3691
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功