基于视频的人体动作识别是计算机视觉中一个活跃且具有挑战性的话题。过去几年,深度卷积神经网络(CNN)成为最受欢迎的方法,并在HMDB-51和UCF-101等多个数据集上达到了最先进的性能。 由于每个视频都具有多种帧级功能,因此如何组合这些功能以获得良好的视频级功能成为一项艰巨的任务。 因此,本文提出了一种基于深度卷积神经网络(SP-CNN)的新颖的动作识别方法-分层池化。 该过程主要由五个部分组成:(i)在目标数据集上微调预训练的CNN,(ii)帧级特征提取; (iii)用于减少特征维数的主成分分析(PCA)方法; (iv)分层合并帧级功能以获得视频级功能; (v)支持多类分类的支持向量机。 最后,在HMDB-51和UCF-101数据集上进行的实验结果表明,所提出的方法优于最新技术。