改进通道注意力机制下的人体行为识别网络.docx资源-CSDN文库

版权申诉

121 浏览量 2023-02-23 20:07:36 上传评论收藏 621KB DOCX 举报

资源推荐

资源详情

资源评论

1. 引言

在计算机视觉领域，对人类行为识别的研究既能发展相关理论基础又能扩大其工程应

用范围。对于理论基础，行为识别领域融合了图像处理、计算机视觉、人工智能、人体运

动学和生物科学等多个学科的知识，对人类行为识别的研究可以促进这些学科的共同进

步。对于工程应用，视频中的人类行为识别系统有着丰富的应用领域和巨大的市场价值，

其应用领域包括自动驾驶、人机交互、智能安防监控等。

早期的行为识别方法主要依赖较优异的人工设计特征，如密集轨迹特征

[1]

、视觉增强

单词包法

[2]

等。得益于神经网络的发展，目前基于深度学习的行为识别方法已经领先于传

统的手工设计特征的方法。尽管如此，基于深度学习的人体行为识别方法依旧存在着难

点：Karpathy 等人

[3]

率先将神经网络运用于行为识别，其将单张 RGB 图作为网络的输入，

这只考虑了视频的空间表观特征，而忽略了时域上的运动信息。Simonyan 等人

[4]

提出了双

流网络。该方法使用基于 RGB 图片的空间流卷积神经网络和基于光流图的时间神经网络

分别提取人类行为的静态特征和动态特征，最后将双流信息融合进行识别。一个视频通常

持续几秒至几十秒，Wang 等人

[5]

提出了 TSN 结构来处理此问题，其将一个输入视频分成

K 段，然后每个段中随机采样得到一个片段。不同片段的类别得分采用段共识函数进行融

合来产生段共识。最后对所有模型的预测融合产生最终的预测结果。借鉴 2D 卷积神经网

络在静态图像的成功，Ji 等人

[6]

将 2D 卷积拓展为 3D 卷积，从而提出了 3D-CNN 方法来提

取视频中的运动信息。但 3D-CNN 计算参数太过庞大，难以优化。Zhu 等人

[7]

提出了伪双

流结构，网络采用 RGB 序列作为输入，分支 1 提取表观信息；分支 2 则通过图像重建的

方法来获得运动信息，然后将预测结果映射到真实标签上。

上述方法都注重寻找额外的时间维信息，如光流运动信息、帧间信息等，而忽略了

RGB 图像本身富含着重要且丰富的信息。人类在观察不同行为时，对整个空间区域会有不

同的关注度，会更加注意人体进行活动的区域。引入空间注意力机制有助于关键特征的增

强，提升网络判别性能。Sharma 等人

[8]

首次将注意力机制引入到行为识别中来提升网络在

空域上提取关键信息的能力。相比之前的方法，该方法成功提高了识别正确率但结果依旧

较低且只关注高层特征。胡正平等人

[9]

将 2 维通道注意力拓展为 3 维通道注意力并运用到

3 维网络中提升网络的特征提取能力。本文在分析现有通道注意力模块不足的基础上，提

出了改进的通道注意力模块，并将此模块插入现有基础网络(如 ResNet

[10]

)，实现了识别正

确率的提升。

2. 注意力机制下的行为识别网络

2.1 现有通道注意力模块

剩余10页未读，继续阅读

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 3661
资源: 1万+

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip