论文研究-基于卷积神经网络的人脸性别识别研究与应用 .pdf

所需积分/C币:49 2019-08-16 18:20:43 642KB .PDF
236
收藏 收藏
举报

基于卷积神经网络的人脸性别识别研究与应用,耿凯悦,刘晓鸿,人脸包含着人类的性别、种族、肤色,年龄等重要信息,如果可以用计算机识别人脸,就可以方便且非接触式地获得大量人类的生物特征
山国利技论文在线 http://www.paper.edu.cn 图片,这样,我们把一个5*5的图片通过特征提取变成一个3*3的矩阵,这个矩阵称为特征 图( feature map),显然特征图的个数等于卷积核的个数的,如下图所示。 步长1 1 2 1 图2卷积过程 我们发现 filter要识别出的特征是在3*3的区域中是否有左上至右下对角线值全为1的 80 模式,在特征矩阵中,我们发现值为2对应的区域满足要求。CNN可以建立许多卷积核识 别不同的特征。对于彩色图片,上图将变成一个3*5*5的立方矩阵,相应的,卷积核与特征 矩阵也会变为3维的立体矩阵 这就是CNN处理在图片不同位置寻找某一特征的方法,这种方法由于是用同一组参数 在整张图片上寻找局部特征,大大减少了参数个数,更新参数的方法可以是所有不同区域 85 对参数史新后取平均数。 1.池化层 相对于卷积层来说,池化过程相对简单,概括来说就是做子抽样,接着用上述 filter得 到的特征矩阵举例,可以将其每四个值分为一组,将一组内的数据整合成一个值,例如取最 大值或取平均值,这样,我们将3*3的特征图简化为2*2的特征图,将所有 filter得到的特 90 征图简化都做这样的子抽样,我们最终就将5*5的原始图片转化为一组n维的2*2的特征图。 重复卷积和池化多次后,将得到的立体图片信息拉直成一维数组,就可以传入常规的神经网 终继续训练了。 2 Alexnet原理及改进 21 Alexnet基本结构 卷积神经网络的两个核心操作是卷积和池化,主要起到作用是抽取特征,使网络具有 定转移不变性,池化主要起降维的作用。卷积和池化的随机组合赋予了CNN很大的灵活性, 因此也诞生了很多耳熟能详的经典网络: Alexnets, VGGNet, Google Inception Net, resNet 这四和网终在深度和复杂度方面依次递增。本文将经典的8层 Alcxnct改进为全卷积的 100 Alcxnct,并对比两种网终结构的性能。 表1 Alexnet结构表 山国利技论文在线 http://www.paper.edu.cn nput 2272273 cony l rell pe output norm 96*11*11*3 kernel size=. stride=2 27*27*96 local size=5 cony rely 2 output norm2 256*5*5*48 kernel sizc=3. stride=2 13*13*256 local sizc=5 convs rely output 384*3*3*256 13*13*384 cony relu4 output 384*3*3*192 13*13*384 output 256*3*3*192 kernel size=3, stride=2 6*6*256 ful dropout output 4096*1 4096*1 full7 rely dropout output 4096*1 4096*1 full output softmax 1000*1 2,2 Alexnet关键技术 221ReLU激活函数 05 Alexnet所有隐层的激活单元都是ReLU,RLU函数可以表示为fx)=max(0,x)ReLU函 数其实是分段线性函数,把所有的负值都变为0,而正值不变,这种操作被称为单侧抑制。 单侧抑制使得Ω神经网络中的神经元具有了稀疏激活性。尤其体现在深度神经网终模型(如 CNN)中,当模型増加N层之后,理论上ReLU神经元的激活率将降低2的N次方倍。当训 练一个深度分类模型的时候,和目标相关的特征往往较少,因此通过ReLU实现稀疏后的模 110 型能够史好地挖掘相关特征,拟合训练数据 此外,相比丁其它激活函数来说,ReLU有以下优势:对于线性函数而言,ReLU的表 达能力更强,尤其体现在深度网络中;而对于非线性函数而言,ReLU由于非负区间的梯度 为常数,因此不存在梯度消失问题( Vanishing Gradient Problem),使得模型的收敛速度维持在 一个稳定状态。当梯度小于1时,预测值与真实值之间的误差每传播一层会衰减一次,如果 115 在深层模型中使用 sigmoid作为激活函数,这种现象尤为明显,将导致模型收敛停滞不前。 222 Dropout机制 训练神经网络模型时,如果训练样本较少,为了防止模型过拟合, dropout可以作为一 种有效的技术供选择。 Dropout是inon最近2年提出的,源于其文章 Improving neural netwoκ ks by preventing co-adaptution of feature detectors。 Dropout是指在模型训练时随机让 120 网络某些隐含层节点的权重不工作,不工作的那些节点可以暂时认为不是网络结构的一部 分,但是它的权重会保留下米而暂时不更新, dropout的工作机制如下图所示: 4 山国武技论文在线 http://www.paper.edu.cn 8Q⑧ 8x⑧ d⑧⑧ 图3 dropout机制 125 由于每次用输入网络的样本进行权值更新时,隐含节点都是以一定概率随机出现,因 此不能保证每2个隐含节点每次都同时出现,这样权值的更新不再依赖于有固定关系隐含 节点的共同作用,阻止了某些特征仅仅在其它特定特征下才有效果的情况。可以将 dropout 看成是模型平均的一种。对丁每次输入到网络中的样木(可能是一个样木,也叮能是一个 batch的样本),其对应的网络结构都是不同的,但所有的这些不同的网络结构又同吋共 130 享隐含节点的杖值。这样不同的样本就对应不同的模型,有一个比较有意思的解释是, Dropout类似于性别在生物进化中的角色,物种为了使适应不断变化的环境,性别的出现 有效的阻止了过拟合,即避免环境改变时物种可能面临的灭亡。 23 Alexnet改进 232RcLU函数改进 135 ReLU( Rectilied linear unil function)函数可以表示为(x)-max(0,x)。线性激活函数 简单地将阈值设置在零点,计算开销大大降低,和 sigmoid、tanh函数相比,ReLU可以 大大加快随机梯度下降算法的收敛,但是ReLU在训练时是非常脆弱的,并且可能“死”。 例如,流经ReLU神经元的个大梯度可能导致权重更新后该神经元接收到任何数据点都 不会再激活。如果发生这种情况,之后通过该单位点的梯度将永远是零。也就是说,ReLU 140 可能会在训练过程中不可逆地死宀,并且破坏数据流形。 Leaky clu是对于“RcIU死宀 问题”的一次解决尝试,它可以表示为 >0 xx≥D aY Iso ax I<0 其中,a为一个较小值,如0.01等8 Hi=0Ei I 山国武技论文在线 http://www.paper.edu.cn 145 图 4 Leaky relU 233全卷积神经网络 通常CNN网络在卷积层之后会接上若干个全连接层,将卷积层产生特征图( feature map)映射成一个固定长度的特征向量。如果一个深度结构只有卷积层,那么输入图像可 以任意人小,可是一旦在卷积层上面叠加上全连接层,输入图像的人小就需要固定了。与 150 经典的CNN在眷积层之后使用仝连接层得到固定长度的特征向量进行分类(仝联接层+ softman输出)不同,FCN可以接受任意尺寸的输入图像,采用反卷积层对最后一个卷积 层的特征图进行上采样,使它恢复到输入图像相冋的尺寸,从而可以对每个像素都产生了 个预测,同时保留了原始输入图像中的空间信恳,最后在上采样的特征图上进行遂像素 分类。 传统的CNN为了对一个图像分类,使用该像素周围的一个图像块作为CNN的输入用 于训练和预测。这种方法有几个缺点:一是存储开销很大。例如对每个图像使用的卷积核的 大小为15x15,然后不断滑动窗口,每次滑动的窗口给CNN进行判别分类,因此所需的存 储空间根据滑动窗口的次数和人小急剧上升。二是计算效率低下。相邻的图像快基本上是重 复的,针对每个图像快逐个计算卷积,这种计算也有很人程度上的重复。三是像素块大小的 160 限制了感知区域的大小。通常像紊块的大小比整幅图像的大小小很多,只能提取一些局部的 特征,从而导致分类的性能受到限制。 全卷积网络(FCN)则是从抽象的特征中恢复出每个像素所属的类别。即从图像级别的分 类进步延伸到像素级别的分类。全连接层和卷积层之间唯一的不同就是卷积层中的神 经元只与输入数据中的一个局部区域连接,并且在卷积列中的神经元共享参数。然而在两类 l65 层中,神经元都是计算点积,所以它们的函数形式是一样的。因此,将此两者相互转化是可 能的 对于任一个卷积层,都存在一个能实现和它一样的前向传播函数的全连接层。权 重矩阵是一个巨人的矩阵,除了某些特定块,其余部分都是零。而在其中人部分块中, 元素都是相等的。 170 相反,任何仝连接层都可以被转化为卷积层。比如,一个K=4096的全连接层, 输入薮据体的尺寸是77512,这个全连接层可以被等效地看做一个F=7,P=0,S=1. K=4096的卷积层。换句话说,就是将卷积核的尺寸设置为和输入数据体的尺寸一致了。 因为只有·个单独的深度列覆盖并滑过输入数据体,所以输山变为114096,这个 结果就和使用初始的那个全连接层·样了。 175 在两种变换中,将全连接层转化为卷积层在实际运用中更加有用。假设一个卷积神经 网络的输入是224x224x3的图像,一系列的卷积层和下采样层将图像数据变为尺寸为 7x7x512的激活数据体。 Alcxnct使用了两个尺寸为4096的全连接层,最后一个有1000 个神绎元的全连接层用于计算分类评分。我们可以将这3个全连接层中的任意一个转化为 卷积层: 180 针对第一个连接区域是[7x7x512]的全连接层,令其卷积核尺寸为F=7,这样输出 数据体就为[1x1×4096]了 ·针对第二个全连接层,令其卷积核尺寸为F=1,这样输出数据体为[1x1x4096]。 ·对最后个全连接层也做类似的,令其F=1,最终输出为1x1x1000 实际操作中,每次这样的变换都需要把全连接层的权重W重塑成卷积层的滤波器。 6 山国利技论文在线 http://www.paper.edu.cn 185 这样的转化在卜面的情况卜可以更高效:让卷积网络在一张更大的输入图片上滑动,得到 多个输出,这样的转化可以让我们在单个向前传播的过程中完成上述的操作。 数据源处理 31数据源选择 以本次性别识别的研宄使用 Adience数据集,该数据集包含26580张图片。其来源为 190 Flickr相册,由用户使用 iPhone5或者其它智能手机设备拍摄,同时具有相应的公众许可 为了更真实地反映日常生活中的人脸, Adience数据集的噪声很多,如人脸的角度没有固 定,有些图片的分辨率比较低,有些图片人脸占整张图片的比例较小,该数据集主要用于 进行年龄和性别的未经过滤的面孔估计。木文认为通过训练这些有噪声的图片,得出的年 龄估计和性别识别更有代表性和实际意义。 195 图5 adience数据集图片 32数据增强 200 随着训练集样本数量旳增大,神经网络模型预测准硝率会有所提升,为了充分利用机 尜性能提取人脸特征,需要对训练集样本数量进行扩充。本文使用 opencv使得图像发生 偏移,并在通过cae自带的工具使得图像发生镜像ε通过这样的操作,使得训练集的样 本数量增长四倍 除了增加训练集样本数量,优化训练集样本的质量也可以有效提升模型预测的准桷 205率,可以从多种角度实现图像增强,例如可以将图像边缘进行锐化,也可以调整人脸与背 景之间的对比度。本文将采用直方图均衡化进行图像増强。该算法的操作对象是图像的像 素点,利用累计分布函数,重新分配图片灰度分布。 直方图均衡化( Histogram Equalization)又称直方图平坦化,实质上是对图像进行非线性 拉伸,重新分配图像象素值使一定灰度范围内素值的数量大致相等叫。这样原来育方图中间 210 的峰顶部分对比度得到增强而两侧的谷底部分对比度降低输出图像的直方图是一个较平的 分段直方图:如果输出数据分段值较小的话,会产生粗略分类的视觉效果 直方图是表示数宇图像中每一灰度出现频率的统计关系。直方图能给出图像灰度范围、 每个灰度的频度和灰度的分布、整幅图像的平均眀暗和对比度等概猊性摧述。灰度直方图是 灰度级的函数,反映的是图像中具有该灰度级像素的个数,其横坐标是灰度级r.纵坐标是 7 山国利技论文在线 http://www.paper.edu.cn 215 该灰度级岀现的频率(即像素的个数)pr(r),整个坐标系描述的是图像灰度缴的分布情况, 由此可以看岀图像的灰度分布特性,即若大部分像素集中在低灰度区域,图像呈现暗的特性; 若像素集中在髙灰度区域,图像呈现亮的特性。 下图所示就是直方图均衡化,即将随机分布的图像直方图修改成均匀分布的直方图。基 本思想是对原始图像的像素灰度做某和映射变换,使变换后图像灰度的概率密度呈均匀分 220 布12。这就意味着图像灰度的动态范围得到了增加,提高了图像的对比度 通过直方图均衡化技术可以清晰地在直方图上看到图像亮度的分布情况,并可按照需 要对图像亮度调整。另外,这种方法是可逆的,如果已知均衡化函数,就可以恢复原始直方 图。由于 Adience数据集中的图像都是 flicker相册的生活照,有许多颜色暗沉的照片不利 于训练,所以我使用上述算法进行图像增强增加图像的对比度,实际处理采用的是 python 225 图像处理库,处理结果如下图所示。 图6图像处理结果对匕图 33性别分类 230 在处坦数据溟是发现, Adience数据集中有大量婴儿时期的照片,许多婴儿时期的人 脸并没有开始表现出显著的性别特征(如下图所示),这·现象将对基于人脸的性别识别 的准确率造成极大干扰,所以本文将二分类的性别识别问题转化为三分类,增加类有待 判別的婴儿时期,希望提高最终模型的准确度。 图7性别分类 山国武技论文在线 http://www.paper.edu.cn 4实验过程及结果 41全卷积 Alexnet神经网络的搭建 240 如卜图所示,FCN将传统CNN中的全连接层转化成卷积层,对应CNN网终FCN把最 后三层全连接层转换成为三层卷积层。在传统的 Alexnet结构中,前5层是卷积层,第6层 和第7层分别是一个长度为4096的一维向量,第8层是长度为1000的一维向量,分别对应 l000个不同类别的概率。FCN将这3层表示为卷积层,卷积核的大小(通道数,宽,高)分 别为(4096,1,1)、(4096,1,1)、(10001,1)看上去数字上并没有什么差别,但是卷积跟全连接 245 是不一样的慨念和计算过程,使用的是之前CNN已绎训练好的权值和偏置,但是不一样的 在于权值和偏置是有自己的范围,属于自己的一个卷积核。因此FCN网络中所有的层都是 卷积层,故称为仝卷积网络。 表2全卷积 Alexnet神经网络结构表 ayer stride pa kernel size scaling factor conⅴ1 12 conv 0 12 cony conⅴ4 cony 1/2 convo 6 conv Upscore 32 32 250 42全卷积 Alexnet与经典 Flexner对比 CNN中输入的图像大小是同意固定resi成227x227大小的图像,第一层 pooling 后为55X5,第二层 pooling后图像人小为27x27,第五层 pooling后的图像人小为13*13 而FCN输入的图像是H*W人小,第一层 pooling后变为原图人小的12,第二层变为原 图大小的1/4,第五层变为原图大小的18,第人层变为原图大小的1/16 255 经过多次卷积和 pooling以后,待到的图像越来越小,分辨率越来越低。其中图像到 H/32W32的时候图片是最小的一层时,所产生图叫做热图( heat map),热图就是最重 要的扃维特征图,得到高维特征的之后,最后的步也是最重要的步是对原图像进行上采 样,把图像放大到原图像的大小。最后的输出是1000张热图经过上采样变为原图大小的图 片,将 Alexnet最后三层全联接神经网络替换为三层全卷积神经网络不仅减少了网络的计算 260 量,而且还解除了全连接神经网终输入图像固定大小的限制,使得网络变得更加灵活和高效。 全卷积的 Alexnct除去将最后三层全连接神经网终替换成全卷积神经网终外,还要将每一层 的激活函数ReLU替换为 leaky ReLU,以其缓解RU杀死梯度的现象 9 山国武技论文在线 http://www.paper.edu.cn 43实验结果对比 下图分别是使用经典的 Alexnet和全卷积的 Alexnet对优化过的 Adience数据集上进 265 行训练所得到的loss曲线对比图,如下图所示,由于全卷积神经网络和 leaky reLU函数 的应用,使得改进后的 Alexnet的loss曲线更加平滑,更快趋于稳定。 Train loss vs Iters 25 20 00 1c000 200c0 00c0 50自00 ters 图8经典 Alexnet loss由线 Train loss ys. Iters 5 10 1c000 20000 30000 d0000 270 ters 图9全卷积 Alexnet loss曲线 下图是每训练1000次进行一次测试有得到的两种网络的准确率折线图 10

...展开详情
试读 12P 论文研究-基于卷积神经网络的人脸性别识别研究与应用 .pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
一个资源只可评论一次,评论内容不能少于5个字
您会向同学/朋友/同事推荐我们的CSDN下载吗?
谢谢参与!您的真实评价是我们改进的动力~
关注 私信
上传资源赚钱or赚积分
最新推荐
论文研究-基于卷积神经网络的人脸性别识别研究与应用 .pdf 49积分/C币 立即下载
1/12
论文研究-基于卷积神经网络的人脸性别识别研究与应用 .pdf第1页
论文研究-基于卷积神经网络的人脸性别识别研究与应用 .pdf第2页
论文研究-基于卷积神经网络的人脸性别识别研究与应用 .pdf第3页

试读结束, 可继续读1页

49积分/C币 立即下载