论文研究-基于伪3D卷积神经网络的视频检索算法 .pdf

所需积分/C币:46 2019-08-16 16:52:51 219KB .PDF
107
收藏 收藏
举报

基于伪3D卷积神经网络的视频检索算法,李松,赵志诚,针对大规模视频检索中存在的速度和精度难以平衡的问题,本文提出了一种基于伪3D卷积神经网络的视频检索算法。首先,对输入的视频�
山国利技论文在线 http://www.paperedu.cn 1.2.2基于深度网络的视频检索算法 75 代表性的基j深度网络的视频检索算法是DHNs,该算法的主要思路是首先训练神经 网络如双流结构网络、C3D等,以获得能够对当前视频类别进行区分的网络权重;其次, 在原有深度网络结构的基础上增加一个全连接层和Tanh激活函数层,其中全连接层主要是 用来对视频时空特征进行哈希编码,通道数即为实际需求的哈希编码后的绯度,Tanh激活 函数层的主要作用是用来限制编码后的哈希值为-1/1:进而采用融合量化损失和交叉熵损失 的损失函数来训练网络,以获得哈希编码后的值;最后对哈希编码后的值进行索引树的建立 并进行输入数据的检索。然而,该算法也存在两方面的缺陷:第一,由于双流网络结构将视 频的时序和空间信息特征分开提取,未能够建立空间和时序信息之间依赖关系,因而无法获 得强有力的祝频特征表示,同时3D卷积网络的高计算复杂度限制了网终的深度和宽度进而 限制了它的特征提取能力;第二,由于DHN主要是针对图像检索而提山的,在对哈希编码 85 层和损失函数的设计上未能考虑到视频的复杂性、结构性等特性. 2基于伪3D卷积网络的视频检索 本文提出」一种基于伪3D卷积网络的视频检索框架,主婁由视频预处理、视頻时空特 征提取和表示、基丁树结构的搜索三个部分构成,算法框架如图1所示。其中,视频处理模 块主要是对输入的视频进行裁剪和抽帧等,以便于后续模块的操作;视频吋空特征提取和表 示模块采用了基于伪3υ卷积的卷积神经网络。该网络不仅能明显降低传统3D卷积运算惜 来的高计算复杂度和存储空间占用率,而且还弥补了传统的2D卷积运算无法对视频中包含 的物体空间特征和连续帧间的时序特征进行有效利用的缺陷。考虑到提取的时空特征是一个 高维度的向量,因此本文首先采用主成分分析( Principal component analysis,PCA)算法对提 95 取得到的视频时空特征进行降维处理,随后建立了基于KD-te的视频索引完成检索 视频 冷视频处C : 高维时 伪3卷积 空特征 数据库 降维 检索 建树 视频 视频2结果 树状结构检索 低维时空特征 图1视频检索框架 Fig. I architecture of video retrieval 100 本文采提出的视频检索框架的主要优点可概括为如下两方面: (1)采用∫基于伪3D的卷积运算,大大拓展了3D卷积神经K络的深度和宽度,从 山国利技论文在线 http://www.paperedu.cn 而有效地对视频的吋空特征进行融合利用,提丌对视频内容进行描述的时空特 征的准确性; (2)采用PCA特征降维与树结构搜索相结合的算法能够有效的降低计算复杂度和 105 占用的存储空间大小,从而提升检索算法的效率 2.1视频的时空表示 传统的基于3D卷积运算的卷积核大小是由3个维度构成的,较2D卷积运算带来∫史 多的运算参数,若直接将其运用在卷积神经內络中,将会造成网络参数过多和模型过大的问 题,从而使网络无法快速收敛,如C3D网络。伪3D卷积则是针对这一情况而提出,它将 传统3D卷积的时间域和空间域卷积分成两个部分单独进行卷积运算。例如在C3D网络中 卷积层卷积核的大小为3×3×3,通过伪3D变换后,卷积核的大小变成了1×3×3和3×1×1两 个部分,即传统意乂上的2D卷积,因此该卷积方式可以较大幅度地增加3D卷积神经网络 的宽度和深度。 115 基于上述卷积方式,[9提出了一种基于伪3D卷积的深度残差网络( Pseudo-3 D Residual Networks),将网络的深度拓展到了199层,其中核心的设计便是残差网络中的残差卷积单 儿。传统的基于2D卷积的残差卷积单元,是先将输入的特征通过一个卷积核大小为1×1的 卷积模块进行降维处理;再将降维后的特征通过一个卷积核大小为3×3的卷积模块进行空 间卷积;然后再通过—个大小为1×1卷枞模块将特征维度还原成降维前特往大小;最后, 120 再将降维前输入的特征与通过空间卷积运算的特征通过相加运算进行融合。图2为伪3D残 差网络中所对应的残差卷积单元的设计,可总结为三种融合类型:(a)表示的残差卷积单元 是将3D卷积运算的卷积核进行伪3D拆分,获得两个2D卷积运算的卷积核,)进行级联 操作;(b)是将拆分后的两个卷积核进行并联并单独运算后再进行相加运算,然后再对其进 行维度还原:(c)等价于在原有残差结构的基础上又增加了一个新的残差单元,即将降维后 125 的特征先通过一个大小为1×3×3卷积核进行空间卷积,之后分成两路,一路将卷积后得到 的输出特征值冉进行时间域的卷积,即通过一个大小为3×1×1的卷积核,另一路对输入的 特征值不做处理,然后再将两路输岀特征结果通过相加运算进行融合。然而,在实际的实验 中,对卷积残差网络进行构造时,如果仅单独使用了图2中的某一·种结构将无法有效的提升 网络的整体性能,因此,在本文在网络构造时,采用了上述三种结构进行交替连接的方式 l30 本文采用的199层伪3 D ResNet是在152层2 D ResNet的基础上得到的,表1中给出了 该网终的总体结构和各层的参数,从表中可以看出,伪3D网终在每一个残差卷积运算单元 后进行一个步长为2×1×1、卷积核大小为1×1×1的时间域最人值池化运算,在通过 网络最后一次的最大值池化运算后,网络输出的时空特征尺度则由原来的c×l×h×w 变成了c×hⅹw,即将特征维度从三维降到了二维,从而起到」减少络中参数和降低 135 网络的计算复杂度的作用 4 山国利技论文在线 http://www.paperedu.cn 1×1×1Conv 1×1×1Conv 1×1×1Conv 1×3×3Con 3x1×1CnV 1×3×3Cony 1x1×1Conv l×1×1Conv 1×1×1Conv 图2伪3D卷积残差单元,图中省略了归一化层和激活函数层 Fig 2 Residual unit based on Pseudo-3D convolution; The 140 layer of normalization and activation are ignored 表12 D ResNet和伪3 D ResNet网络结构对比;图中省略 了归一化层和激活凼数层 Tab 1 Comparison between 2D ResNet and Pseudo-3D ResNet; The layer of normalization and activation are ignored 2D Res et-152 伪3 D ResNet-199 7×7,64, Stride2 1×7×7,64, Stride l×2×2 3×3 Max pool, Stride2 2×3×3, Max pool, Stride2×2×2 1×1 ×⊥,64 1×3 3×3,64×3 × 3,64 3×1 1×1,256 1×1×1,256 2×1×1, Max pool, Stride2×1×1 1×1×1,128 1×1,128 l×3×3,128 3×3,128×8 3×1×1,128 1×1,512 1,512 2×1×1, Max pool, Stride2×1×l 256 1×1,256 ×3 256 ×3,256 131 36 1×1,1024 l×1×1,1024 2×1×1, Max pool, Stride2×1×1 山国利技论文在线 http://www.paperedu.cn 1×1,512 1,512 3×3,512 3×3,512×3 1×1,2048 1×1,2048 Average pool, Softmax 45 22基于树状结构的搜索 基于树状结构的搜索算法的算法复杂度为Olog(m),由于其良好的性能,成为日前使 用的比较广泛的一种搜索算法,而其中最典型的便是KD-Tree(K- Dimensional tree),其维度 为2时结构如图3所示。 ○③③ 150 图3KD-Tree在维度为二时的树状结构 Fig 3 Tree structure of KD-Tree in dimension two KD-Tree的具体的构造过程主要分为以下几个步骤: 第一步:确定分割域,根据存储于数据库中的高维度数据,统计其于每个维度上的数据 155 之闩的方差值,同时,在其中挑选出值最大的方差,该方差值所对应的维度即为所确定的分 割域,这里选取方差值较大的数据原因在于数据的方差值越大,其于该维度上的分散度也就 越髙,从而在对数据进行分割时,能够获得更好的分辨率 第步:确定节点数据域,根据步骤一中所确定的分割域对数据进行排疗,排序后的数 据中处于中间的数据即为节点数据; 160 第三步:重复第一步和第二步的过程,直至剩余的数据为空时停止操作。 最后,基于构造好的索引树进行近邻查找,完成相似视频的检索。 3实验与结果 本论文在公开的UCF101数据集⑩上对所提视频检索算法进行了性能的验证。实验时, 65 本文将UCF101数据集中90%的数据用于训练,10%的数据用于最终的测试;对于输入的视 频数据,根据视频的总帧数,对其等间隔采样16帧,并将单帧图像人小标准化为340×256 像素后,在图像中间位胃裁剪大小为224×224的部分作为网络输入。为了公平地进行实验对 6 山国利技论文在线 http://www.paperedu.cn 比,DHN采用了伪3D卷积神经网络作为骨干网。此外,由于平均精度均值( mean Average Precision,mAP)y1能够有效地反应准确率( Precision)和召回率(Reca)之间的关系,因此本文 170 采用mAP作为检索算法性能的评价指标。实验结果如表2所示 表2视频检索算法在UCF101数据集上的的性能 Tab 2 Performance of video retrieval algorithm on UCF101 dataset Method Dimension AP Time(s) 128 74.5% 0.943 DHN+Sequential search 64 75.2%0 0.635 48 64.3% 0.622 128 76.4 0.950 Ours+ Sequential scarch 76.4% 0.640 48 75.7% 0.625 128 76.4%0 0.716 Ours +KD-Tree search 76.4% 0.421 48 75.7%0 0.348 不同降维算法性能对比 0.8 0.6 0.4 ▲PCA.64 0.2 PCA. 48 -x Hash. 64 Hash. 48 0.0 20 40 60 80 100 TOp-N 图4不司降维算法和维度的Top-N精度对比 175 Fig 4 Cornparison of different dimension reduction algorithm and ecision of Top -N 根据表2可知,当采用了DHN和顺序搜索的组合结构时,编码后特征维度为64时实 现的性能为75.2%,较维度为48时的性能有10.9%的提升,但是将维度扩展至128时性能 180 较维度为64时降低了0.7%。本文分析认为维度为128时的网终中引入了更多的参数,但是 7 山国利技论文在线 http://www.paperedu.cn 实验中用于训练的数据集中视频数量有限,从而造成了性能下降的现象;当采用了本文算法 和顺序检索的组合后,其在降维后的维度为64时,在UCF101数据集上的检索性能为76.4%, 较维度为48时的性能有0.7%的提升,与维度为128时相比较,其性能没有获得提升,较 DHN和顺序检索组合的在64维时性能提升了1.2%。图4则给出了检索输出前N个数据在 185 维度分别为48和64时所对应的精度值,可以看到,通过本文中PCA算法将维度降低至64 和48维后,其精度值总体比哈希编码所对应维度的高。 当检索算法采用」KD-Tree搜索后,其在mAP上和顺序检索没有很大的差别,但是其 显著的降低」检索的复杂度,在维度为128时较顺序检索在该维度的单个视频的检索时间减 少了234毫秒,在维度为64时减少了219毫秒,在维度为48时减少了277毫秒。 根据上述的实验数据分析,本文的视频检索框架不仅大大降低了检索算法的复杂度,同 时有效的提升了检索结果的准确性。 4总结与展望 本文提岀了一种基于伪3D卷积网络的视频检索框架,该框架主要由三个模块构成,即 视频预处理模块、视频时空特征提取和表示模块、基于树结构的搜索模块。该算沄有效地提 195 升了视频检索的整体性能)大大降低了算法对存储空间的需求,相对于深度哈希检索结构, 在性能上取得了1.2%的提升。但是本算法框架仍有较大的提升空间,本文后续将从以下几 方面进行进一步探索:在对视频时空特征提取时,可以尝试使用光流信息作为网络的输入来 弥补伪3D网络提取视频特征的缺陷:本文算法框架未能够实现一个端到端的过程,因此可 以尝试进行改进,以方便算法的训练和应用 200 参考文献]( References [ 1] Annane D, Chevrolet J C, Chevret S, et al. Two-Stream Convolutional Networks for Action Recognition in Videos[J Advances in Neural Information Processing Systems, 2014, 1(4 ) 568-576 [2 Xu 7, Yang Y,I lauptmann A (i. A Discriminative Cnn Video Representation for Event Detection[A 205 Computer Vision and Pattern Recognition[C]. Piscataway: IEEE Press, 2015. 1798-1807 3 Yair W, Antonio T, Rob F Spectral hashing [A]. International Conference on Neural Information Processing Systems[C]. Columbus: Curran Associates Inc, 2008. 1753-1760 4 Irie G, Li Zhengguo, Wu Xiaoming, et al. Locally Linear Hashing for Extracting Non-linear Manifolds[A] Confcrcncc on Computcr Vision and Pattcrn Rccognition[C]. Columbus: IEEE Computcr Socicty, 2014 210 2123-2130 5 Zhu II, Long M, Wang, et al. Deep Flashing Network for Efficient Similarity RetrievalLA. Thirtieth Aaai Conference on Artificial Intelligence[C]. Phoenix: AAAI Press, 2016. 2415-2421 6 Wang H, Alexander, Schmid C, et al. Dense Trajectories and Motion Boundary Descriptors for Action Recognition[J]. International Journal of Computer Vision, 2013, 103(1): 60-79 215 [7] Wang H, Schmid C. Action Recognition with Improved Trajectories[A]. International Conference on Computcr Vision[C]. Sydncy: IEEE Press, 2013. 3551-3558 [8] Du T, Lubomir B, Rob F, Lorenzo T, and Manohar P. Learning Spatiotemporal Features with 3D Convolutional NetworksLA]. International Conterence on Computer Vision[C]. Santiago: IEEE Press 2015.44894497 220 [9 Qiu Z, Yao T, Mei T. Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks[A] Computcr Vision and Pattcrn Rccognition[C]. Vcnicc: IEEE Prcss, 2017. 5534-5542 10]KhurraIn S, Amir R Z, and Mubarak S. UCF101: A Dataset of 101 Human Actions Classes From Videos in The Wild[a]. Crcv-TR-12-01[C]. 2012 [11] Liu W, Mu C, Kumar S, et al. Discrete Graph Hashing [a. Proc of International Conference on Neural 225 Information Processing Systems[C]. Kuching: MIT Press, 2014. 3419-3427

...展开详情
试读 8P 论文研究-基于伪3D卷积神经网络的视频检索算法 .pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
一个资源只可评论一次,评论内容不能少于5个字
您会向同学/朋友/同事推荐我们的CSDN下载吗?
谢谢参与!您的真实评价是我们改进的动力~
关注 私信
上传资源赚钱or赚积分
最新推荐
论文研究-基于伪3D卷积神经网络的视频检索算法 .pdf 46积分/C币 立即下载
1/8
论文研究-基于伪3D卷积神经网络的视频检索算法 .pdf第1页
论文研究-基于伪3D卷积神经网络的视频检索算法 .pdf第2页

试读结束, 可继续读1页

46积分/C币 立即下载