没有合适的资源?快使用搜索试试~ 我知道了~
应用区域关联自适应图卷积的动作识别方法.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 6 浏览量
2022-11-28
20:30:59
上传
评论
收藏 975KB DOCX 举报
温馨提示
试读
23页
应用区域关联自适应图卷积的动作识别方法.docx
资源推荐
资源详情
资源评论
目前,动作识别
[1]
应用于视频监控
[2]
、医学影像
[3]
、犯罪侦查
[4]
等方面,近年来
在计算机视觉领域引起广泛关注。动作识别中所应用的骨架数据能有效表示人
体关节的动态 3D 位置,对传感器噪声具有鲁棒性,并且利于计算和存储
[5,6]
。骨
架数据通常通过深度传感器定位关节的 2D 或 3D 空间坐标或使用基于视频的
姿势估计算法
[7]
来获得。基于骨架数据的动作识别方法由于其对动态环境和复
杂背景的强适应性而受到广泛的关注与研究。将骨架数据应用于动作识别主要
有基于手工和基于深度学习这两种方法,基于手工制作方法的性能几乎都不令
人满意,因此大部分研究更倾向于使用基于深度学习的方法。基于深度学习的
方法会自动从数据中学习动作特征,避免手动设置的忽略,其中使用最广泛的模
型是基于递归神经网络(recursive neural network,RNN)和基于卷积神经网
络(convolutional neural network,CNN)。基于 RNN 的方法通常将骨架数据
建模为坐标向量的序列,每个向量表示人体关节。并且一些 RNN 的模型能捕获
连续帧之间的时间依赖性,例如 bi-RNN
[8]
、Deep LSTM
[9]
、融合特征模型
[10,11]
和
基于注意力
[12]
的模型。基于 CNN 的方法是通过人工设计的变换规则将骨架数
据建模为伪图像,例如残差时间 CNN
[13]
和信息增强模型
[14]
。然而这种将骨架数
据表示为向量序列或二维网格的方法不能完全表示骨架数据的结构,因为骨架
数据是以图形的形式,而不是矢量序列或二维网格。
近年来,Yan 等人应用图卷积网络(graph convolu-tional network,GCN)
来进行骨架数据的动作识别,提出了一种时空图卷积网络 ST-GCN
[15]
,将骨架数
据直接建模为图形结构,获得了比以前方法更好的性能。在此之后 GCN 开始广
泛应用于基于骨架的动作识别。Tang 等人提出的 DPRL
[16]
通过深度渐进式强
化学习帧蒸馏的方法来选择一个动作连续帧中最具代表性的帧,然后通过图卷
积网络抽取空间信息。Shi 等人提出的 2S-AGCN
[17]
在 ST-GCN 的基础上,提出
了自学习的邻接矩阵,并且通过注意力机制为每个样本计算单独的邻接矩阵,应
用双流网络融合骨架的一阶与二阶信息。Shi 等人提出的 DGNN
[18]
在 2S-AGCN
的基础上将骨架图变为有向图。Thakkar 等人提出的 PBGCN
[19]
在基于 ST-GCN
的基础上改变了原来的分区策略,将人体骨架分为 4 个子图,使得信息在子图内
部与子图之间传递。Li 等人提出的 AS-GCN
[20]
设计了动作结构推断模块,以一
个编码器与一个解码器相结合推断人体的非物理连接依赖性,并可以预测之后
的动作。Li 等人提出的 Sym-GNN
[21]
在 AS-GCN 的基础上加入骨架二阶信息,
与骨架一阶信息融合输入网络进行动作预测。
文章采用基于图的方法进行骨架动作识别,应用自适应图卷积从数据中自
适应地学习图形拓扑结构,加入注意力机制测定物理连接关节之间的连接性与
连接强度,并且应用区域关联图卷积捕获非物理连接关节之间的潜在依赖信息,
应用双流网络加入骨架的二阶信息进一步提升性能。模型在 NTU-RGBD 数据
集上正确率有了提升,文章的主要贡献有三方面:
(1)应用了一种自适应图卷积网络,以端到端的方式自适应地学习不同
GCN 层和骨架样本的图的拓扑结构,从而更好地适应 GCN 的动作识别任务。
(2)使用区域关联图卷积捕获非物理连接关节间的潜在依赖关系。
(3)使用骨架数据的二阶信息与一阶信息相结合的双流框架,带来了性能
的提升。
1 相 关工作
近年来,将卷积从图像推广到图形的图卷积网络(GCN)在许多研究中得
到了成功的应用。Yan 等人首先应用 GCN 对骨架数据进行建模,骨架在 GCN
中能够自然地被构造成一个图,以关节为顶点,关节在人体中的自然连接为空间
边,在连续帧中相应关节之间的连接为时间边。Yan 等人也提出了一种基于距
离的图卷积层分区策略,构建了时空图卷积网络 ST-GCN
[15]
。
1.1 图 定 义
将每一帧中的骨架数据看作一个向量序列,每个向量表示对应人体关节的
2D 或 3D 坐标。由于样本不同,一个完整的动作包含多个不同长度的帧。使用
一个时空图来模拟这些关节之间的结构信息,包括空间维度和时间维度。图的
结构遵循 ST-GCN
[15]
所提出的原始结构。如图 1 所示,图 1(a)表示一个构造
的时空 骨架 图,其中 图的 顶 点为 关节,它 们在 人 体中 的自然 连接表 示为 空 间边
(图中的绿线)。对于时间维度,两个相邻帧之间对应节点的连接表示为时间
边(图中的粉线)。将每个关节的坐标向量设置为对应顶点的属性。
图 1
图 1 ST-GCN 时空骨架图
Fig.1 Time-space skeleton diagram of ST-GCN
因此在空间维度上,将骨架图定义为 G(V,E),其中 V 为 n 个关节的集合, E
是 n-1 空间边(即为骨骼)的集合。设 V∈Rn×3×T 是 3D 的关节在 T 帧内的
位置框架。 Vi 表示第 i 个关节在所有 T 帧内的位置信息, Vt 表示在第 t 帧上所
有关节的 3D 位置,则 Vit 表示第 i 个关节第 t 帧时的位置信息。让 A∈[0,1]n×n
为骨架的相邻矩阵图,如果第 i 个关节和第 j 个关节之间 Ai,j=1 表示两个关节连
接,否则为 0。延用 ST-GCN
[15]
的分区策略,如图 1(b)所示,将一个根节点及其
邻域所构成集合分为 3 组,第一组为根节点本身(图中的橙色顶点),第二组为
向 心 组 ( 图 中的 蓝 色 顶 点 ) ,它 们 比 根 节点 更 靠 近 身 体 重 心 (图 中 的 黄 色 位
置),第三组为离心组(图中的粉色顶点),它们比根节点更远离身体重心。根
据此分区策略, A 相应地分成 根、向心 A(根)、A(向心)和 离心 A(离心),并且
根向心离心 A(根)+A(向心)+A(离心)=A。
1.2 图 卷 积
根据上面定 义的图,ST-GCN
[15]
提出在图上 应用多层时空 图 卷积运算来 提
取高层特征,然后利用全局平均池层和 softmax 分类器根据提取的特征进行动
作类别预测。 V 是关节点,在图中表示为图的顶点。具体执行时,网络的特征映
射实际上是一个 C×N×T 张量,其中 N 表示顶点数(即关节数), T 表示时间长
度(即帧数), C 表示通道数。ST-GCN 中在空间维度计算中(先不考虑时间
维度),图卷积运算为:
Xout=∑k=1KvWk(XinAk)∘Mk
(1)
其中, X 为特征映射, Kv 表示空间维度的内核大小,根据分区策略将 Kv 设
置为 3(一共有 3 个子集)。 Ak=ηk-12∙A-k∙ηk-12, A-k 类似于 N×N 的邻接矩
阵,其中的元素 A-ijk 表示顶点 Vj 是否在顶点 Vi 的子集 Sik 中。 Sik 的定义如
下: Si 为目标顶点 Vi 卷积的采样区域,这里先假设采样距离为 1,则 Vj 表示与
Vi 距离为 1 的相邻顶点。由分区策略已知 Si 这个采样区域可分为 3 个子集,
其 中 Si1 表 示 顶 点 本 身 , Si2 表 示 向 心 子 集 , Si3 表 示 离 心 子 集 , Sik ∈
{Si1,Si2,Si3}。 A-ijk 用于从对应权重向量的 Xin 中提取特定子集中的连通顶
点。 ηik 是归一化对角矩阵, ηik=∑A-ijk+α, α=0.001 避免空行,并且归一化避免
之后计算中差距越来越大。 Wk 是 1×1 卷积,类似于卷积里的加权函数 W。在
图像的 2D 卷积中,邻域内的像素具有固定的空间顺序,可以通过根据空间顺序
索引的张量来实现加权函数。但骨架序列没有这样的隐式排列,因此在骨架识
别 中 按 照 目 标 节 点 周 围 邻 域 的 图 标 记 过 程 定 义 来 构 造 加 权 函 数 。 延 用 ST-
GCN
[15]
所提出的加权函数设计模式,不给每个相邻节点一个唯一的标签,而是通
过分区策略将关节点的邻域集合划分为 3 个子集,每个子集都有一个数字标签。
采 样 区 域 Si 的 映 射 可 表 示 为 li=S(Vi)→{1,2,3}, 相 应 的 加 权 函 数 可 表 示 为
W(Vi,Vj):S(Vi)→Rc,则一个映射与权重的赋予可以通过 W(Vi,Vj)=W'(li(Vj))来
实现。每个子集的权重向量在训练时会向前反向传播更新,以此来提高其加权
准确性。 Mk 是 N×N 注意力图,表示每个顶点的重要性。在 ST-GCN 的时间维
度上,时间卷积网络(temporal convolutional network,TCN)每个顶点的相邻
节点数固定为 2(即为两个连续帧中的对应关节),因此可以在上面计算的输出
特征图上进行 Kt×1 卷积,其中 Kt 是时间维度的内核大小。
然而,ST-GCN 中的图卷积构造过程存在 4 个缺点:(1)ST-GCN 中使用
的骨架图只代表人体的物理结构,忽略了非物理连接关节之间的依赖关系。例
如,两只手之间的关系对于识别“拍手”和“阅读”之类的动作是很重要的。然而由
于双手在骨架图的定义中相距很远,ST-GCN 很难捕捉到两只手之间的依赖关
系。(2)GCN 的结构是分层的,不同的层包含多级语义信息。而在 ST-GCN
中,所有层的图的拓扑结构都是固定的。(3)不同类的动作样本不应该采用同
一个固定的图形结构。例如,对于“洗脸”这样的动作,手和头之间的联系较强,但
对于其他一些动作如“坐下”来说,之前判定的手和头之间联系加强就不正确,ST-
GCN 不支持这种依赖数据的结构。(4)连接到每个顶点的特征向量只包含关
剩余22页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3751
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功