0引言
随着卷积神经网络(Convolutional Neural Network,CNN)在计算机视觉领域的广泛应用,各
种不同功能的网络结构被融合到 CNN 中。图像分类是计算机视觉中最基础的任务,其数据集庞大规
范,输出结果简洁明了,可以很好地评判网络结构的性能优劣
[1]
。现有 CNN 体系结构大多利用下采样
(池化)层减小隐藏层中特征图的尺寸,通过池化层可以获得更大的感受野和更少的内存消耗。目前
广泛使用的最大池化、平均池化、跨步卷积(使用步幅大于 1 的滑动窗口)通过在滑动窗口中采用不
同下采样策略得到池化结果。例如,LeNet-5
[2]
将下采样层作为 CNN 中的基本层,通过在滑动窗口中
对特征值进行求和以降低图像的空间分辨率;VGG
[3]
、GoogleNet
[4]
和 DenseNet
[5]
使用平均池化或
最大池化作为下采样层;ResNet
[6]
采用跨步卷积作为下采样层;全局平均池化
[7]
、ROI pooling
[8]
和
ROI align
[9]
将任意大小的特征图缩放为固定大小,从而使网络能够适配不同大小的输入。
在 CNN 广泛应用前,已有一些关于池化方法的研究。例如,Boureau 等
[10 ]
比较了传统方法中平均池
化和最大池化的性能,并证实在特征较稀疏的情况下,最大池化相较平均池化可以保留更多判别特征 ,
效果更好;Wang 等
[11 ]
、Xie 等
[12 ]
研究结果表明,对于一个给定的分类问题,最优池化类型可能既不
是最大池化也不是平均池化,而是介于两者之间的某个类型池化。这一结论说明学习池化策略十分必
要,本文便是遵循这一研究思路,得到的结果进一步支持了该结论。
1相关研究
池化的最新研究集中在如何通过新的池化层更好地缩小 CNN 中的特征图方面。例如, Fractional
max-pooling
[13 ]
和 S3pool
[14 ]
对 池 化 空 间 变 换 的 方 式 进 行 了 改 进 ; Mixed pooling
[15 ]
和 Hybrid
pooling
[16]
使用最大池化和平均池化的组合形式执行下采样;Lp pooling
[17]
以 Lp 范数的方式组合特
征值,可将其视为由 p 控制的最大池化和平均池化之间的结合体。以上方法可以结合最大池化和平均
池化进一步提高网络性能,但也只是简单地基于平均池化、最大池化或它们的组合学习更好的下采样
方 式 , 不 具 有 普 适 性 。 基 于 此 , Saeedan 等
[18 ]
提 出 细 节 保 留 池 化 法 ( Detail-Preserving
Pooling,DPP),认为图像中的细节应该被保留,冗余的特征可以被丢弃。DPP 的细节保留准则是
计算滑动窗口中像素的统计偏差,是一种启发式方法,可能不是最优的; Zhu 等
[19 ]
提出的 Weighted
pooling 将信息熵理论与池化相结合,通过分析特征图上的每个特征值得到输入与输出特征图各处的
互信息大小,以每个滑动窗口中包含信息量最大的点作为池化结果。该池化方式同样是手工制作,且
结果受计算精度影响,并不一定是最优池化结果。
本文将池化操作视为对特征值的加权求和,不同池化策略对应不同大小的权重。在下采样过程中,并
非池化区域中所有像素的贡献都相等,某些特征比池化窗口中的其他特征更具区分性,且对于不同的
识别任务,区分性大的像素点也可能不同。如图 1(彩图扫 OSID 码可见,下同)所示,对于同一幅
图片,若任务目标为识别花的种类,则红色代表更大的区分性,应被给予更大权重;若任务目标为识
别天气状况,则蓝色代表更大的区分性,应被给予更大权重。因此,应根据任务类型不同使用不同的
池化策略,在每个池化窗口中对各像素分配与其区分能力大小相对应的权重。传统池化方法在池化窗
口内对权重的分配方式固定不变,针对不同类型任务无法做到将细节都妥善保存,若使用不恰当的下
采样策略会使模型性能降低。本文提出的自适应加权池化方法给予每个池化层一组权重参数,这些权
重参数可使网络根据不同任务类型自行变换池化策略,通过最小化损失函数的方式选取最优池化方法。
评论0
最新资源