应用区域关联自适应图卷积的动作识别方法.docx资源-CSDN文库

版权申诉

6 浏览量 2022-11-28 20:30:59 上传评论收藏 975KB DOCX 举报

资源推荐

资源详情

资源评论

目前,动作识别

[1]

应用于视频监控

[2]

、医学影像

[3]

、犯罪侦查

[4]

等方面,近年来

在计算机视觉领域引起广泛关注。动作识别中所应用的骨架数据能有效表示人

体关节的动态 3D 位置,对传感器噪声具有鲁棒性,并且利于计算和存储

[5,6]

。骨

架数据通常通过深度传感器定位关节的 2D 或 3D 空间坐标或使用基于视频的

姿势估计算法

[7]

来获得。基于骨架数据的动作识别方法由于其对动态环境和复

杂背景的强适应性而受到广泛的关注与研究。将骨架数据应用于动作识别主要

有基于手工和基于深度学习这两种方法,基于手工制作方法的性能几乎都不令

人满意,因此大部分研究更倾向于使用基于深度学习的方法。基于深度学习的

方法会自动从数据中学习动作特征,避免手动设置的忽略,其中使用最广泛的模

型是基于递归神经网络（recursive neural network,RNN）和基于卷积神经网

络（convolutional neural network,CNN）。基于 RNN 的方法通常将骨架数据

建模为坐标向量的序列,每个向量表示人体关节。并且一些 RNN 的模型能捕获

连续帧之间的时间依赖性,例如 bi-RNN

[8]

、Deep LSTM

[9]

、融合特征模型

[10,11]

和

基于注意力

[12]

的模型。基于 CNN 的方法是通过人工设计的变换规则将骨架数

据建模为伪图像,例如残差时间 CNN

[13]

和信息增强模型

[14]

。然而这种将骨架数

据表示为向量序列或二维网格的方法不能完全表示骨架数据的结构,因为骨架

数据是以图形的形式,而不是矢量序列或二维网格。

近年来,Yan 等人应用图卷积网络（graph convolu-tional network,GCN）

来进行骨架数据的动作识别,提出了一种时空图卷积网络 ST-GCN

[15]

,将骨架数

据直接建模为图形结构,获得了比以前方法更好的性能。在此之后 GCN 开始广

泛应用于基于骨架的动作识别。Tang 等人提出的 DPRL

[16]

通过深度渐进式强

化学习帧蒸馏的方法来选择一个动作连续帧中最具代表性的帧,然后通过图卷

积网络抽取空间信息。Shi 等人提出的 2S-AGCN

[17]

在 ST-GCN 的基础上,提出

了自学习的邻接矩阵,并且通过注意力机制为每个样本计算单独的邻接矩阵,应

用双流网络融合骨架的一阶与二阶信息。Shi 等人提出的 DGNN

[18]

在 2S-AGCN

的基础上将骨架图变为有向图。Thakkar 等人提出的 PBGCN

[19]

在基于 ST-GCN

的基础上改变了原来的分区策略,将人体骨架分为 4 个子图,使得信息在子图内

部与子图之间传递。Li 等人提出的 AS-GCN

[20]

设计了动作结构推断模块,以一

个编码器与一个解码器相结合推断人体的非物理连接依赖性,并可以预测之后

的动作。Li 等人提出的 Sym-GNN

[21]

在 AS-GCN 的基础上加入骨架二阶信息,

与骨架一阶信息融合输入网络进行动作预测。

文章采用基于图的方法进行骨架动作识别,应用自适应图卷积从数据中自

适应地学习图形拓扑结构,加入注意力机制测定物理连接关节之间的连接性与

连接强度,并且应用区域关联图卷积捕获非物理连接关节之间的潜在依赖信息,

应用双流网络加入骨架的二阶信息进一步提升性能。模型在 NTU-RGBD 数据

集上正确率有了提升,文章的主要贡献有三方面：

（1）应用了一种自适应图卷积网络,以端到端的方式自适应地学习不同

GCN 层和骨架样本的图的拓扑结构,从而更好地适应 GCN 的动作识别任务。

（2）使用区域关联图卷积捕获非物理连接关节间的潜在依赖关系。

（3）使用骨架数据的二阶信息与一阶信息相结合的双流框架,带来了性能

的提升。

1 相关工作

近年来,将卷积从图像推广到图形的图卷积网络（GCN）在许多研究中得

到了成功的应用。Yan 等人首先应用 GCN 对骨架数据进行建模,骨架在 GCN

中能够自然地被构造成一个图,以关节为顶点,关节在人体中的自然连接为空间

边,在连续帧中相应关节之间的连接为时间边。Yan 等人也提出了一种基于距

离的图卷积层分区策略,构建了时空图卷积网络 ST-GCN

[15]

。

1.1 图定义

将每一帧中的骨架数据看作一个向量序列,每个向量表示对应人体关节的

2D 或 3D 坐标。由于样本不同,一个完整的动作包含多个不同长度的帧。使用

一个时空图来模拟这些关节之间的结构信息,包括空间维度和时间维度。图的

结构遵循 ST-GCN

[15]

所提出的原始结构。如图 1 所示,图 1（a）表示一个构造

的时空骨架图,其中图的顶点为关节,它们在人体中的自然连接表示为空间边

（图中的绿线）。对于时间维度,两个相邻帧之间对应节点的连接表示为时间

边（图中的粉线）。将每个关节的坐标向量设置为对应顶点的属性。

图 1

(1)

其中, X 为特征映射, Kv 表示空间维度的内核大小,根据分区策略将 Kv 设

置为 3（一共有 3 个子集）。 Ak=ηk-12∙A-k∙ηk-12, A-k 类似于 N×N 的邻接矩

阵,其中的元素 A-ijk 表示顶点 Vj 是否在顶点 Vi 的子集 Sik 中。 Sik 的定义如

下： Si 为目标顶点 Vi 卷积的采样区域,这里先假设采样距离为 1,则 Vj 表示与

Vi 距离为 1 的相邻顶点。由分区策略已知 Si 这个采样区域可分为 3 个子集,

其中 Si1 表示顶点本身 , Si2 表示向心子集 , Si3 表示离心子集 , Sik ∈

{Si1,Si2,Si3}。 A-ijk 用于从对应权重向量的 Xin 中提取特定子集中的连通顶

点。 ηik 是归一化对角矩阵, ηik=∑A-ijk+α, α=0.001 避免空行,并且归一化避免

之后计算中差距越来越大。 Wk 是 1×1 卷积,类似于卷积里的加权函数 W。在

图像的 2D 卷积中,邻域内的像素具有固定的空间顺序,可以通过根据空间顺序

索引的张量来实现加权函数。但骨架序列没有这样的隐式排列,因此在骨架识

别中按照目标节点周围邻域的图标记过程定义来构造加权函数。延用 ST-

GCN

[15]

所提出的加权函数设计模式,不给每个相邻节点一个唯一的标签,而是通

过分区策略将关节点的邻域集合划分为 3 个子集,每个子集都有一个数字标签。

采样区域 Si 的映射可表示为 li=S(Vi)→{1,2,3}, 相应的加权函数可表示为

W(Vi,Vj):S(Vi)→Rc,则一个映射与权重的赋予可以通过 W(Vi,Vj)=W'(li(Vj))来

实现。每个子集的权重向量在训练时会向前反向传播更新,以此来提高其加权

准确性。 Mk 是 N×N 注意力图,表示每个顶点的重要性。在 ST-GCN 的时间维

度上,时间卷积网络（temporal convolutional network,TCN）每个顶点的相邻

节点数固定为 2（即为两个连续帧中的对应关节）,因此可以在上面计算的输出

特征图上进行 Kt×1 卷积,其中 Kt 是时间维度的内核大小。

然而,ST-GCN 中的图卷积构造过程存在 4 个缺点：（1）ST-GCN 中使用

的骨架图只代表人体的物理结构,忽略了非物理连接关节之间的依赖关系。例

如,两只手之间的关系对于识别“拍手”和“阅读”之类的动作是很重要的。然而由

于双手在骨架图的定义中相距很远,ST-GCN 很难捕捉到两只手之间的依赖关

系。（2）GCN 的结构是分层的,不同的层包含多级语义信息。而在 ST-GCN

中,所有层的图的拓扑结构都是固定的。（3）不同类的动作样本不应该采用同

一个固定的图形结构。例如,对于“洗脸”这样的动作,手和头之间的联系较强,但

对于其他一些动作如“坐下”来说,之前判定的手和头之间联系加强就不正确,ST-

GCN 不支持这种依赖数据的结构。（4）连接到每个顶点的特征向量只包含关

剩余22页未读，继续阅读

评论收藏

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 3751
资源: 1万+

应用区域关联自适应图卷积的动作识别方法.docx

基于Myo旋转偏移估计与自适应校正的手势识别方法.docx

自适应载波同步及其Matlab仿真.docx

基于MATLAB自适应均衡器 (2).docx

MATLAB环境下ISI信道仿真及自适应均衡器设计程序说明.docx

基于子阵列自适应成像的RCS测量方法.docx

基于A3C的无线异构网络自适应视频流传输控制方法.docx

一种方便上料的自适应烤烟夹的制作方法.docx

用于android设备默认屏幕方向自适应的电路的制作方法.docx

基于记忆多项式的时间交织模数转换器自适应非线性失配校正方法.docx

河南城建学院自适应英语分级阅读教学系统.docx

RLS算法实现自适应均衡器的Matlab仿真.docx

结合Yolo-v3及Open-pose的避雷器图片搬运状态识别方法.docx

自适应空间异常的目标跟踪.docx

内孤立波环境下稳健降阶自适应匹配场定位方法研究.docx

html自适应屏幕代码是什么？.docx

基于改进自适应卡尔曼滤波的容错控制.docx

OTDR非反射事件自适应检测算法设计与研究.docx

电子政务自适应信息服务平台结构研究.docx

相关实用应用程序（Windows可用）

免费可用的ChatGPT网页版.zip

ChatGPT使用总结：150个ChatGPT提示词模板（完整版）

李飞飞自传 我看见的世界 The World I see

chromedriver-win64.zip

全国计算机二级WPSoffice精选350道选择题题库（含答案）.pdf

哈尔滨工业大学-ChatGPT调研报告-2023.3.6-94页.pdf

智联招聘：2024年大学生就业力调研报告.pdf

4个亲测好用的ChatGPT4渠道

农村公交与异构无人机协同配送优化

学术海报模板+论文科研+研究生

最新资源

李飞飞自传我看见的世界 The World I see