没有合适的资源?快使用搜索试试~ 我知道了~
基于CNN和HOG双路特征融合的人脸表情识别.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 58 浏览量
2022-11-03
16:11:36
上传
评论 1
收藏 539KB DOCX 举报
温馨提示
试读
12页
基于CNN和HOG双路特征融合的人脸表情识别.docx
资源推荐
资源详情
资源评论
0 引言
人的情感在很大程度上都是由面部表情来呈现,面部表情是非语言交际的一种形式,它是表达人与
人之间社会信息的主要手段之一,甚至还包含了语言所无法表达的重要信息.1978 年,Ekman 和
Friesen
[1]
系统地建立了人脸表情库,细致地描述了每一种表情所对应的面部变化,包括眉毛、眼睛、眼
睑、嘴唇等面部单元的变化,随后他们进一步定义了人类的 6 种基本表情:生气(Angry)、厌恶
(Disgust)、恐惧(Fear)、高兴(Happy)、悲伤(Sad)和惊讶(Surprise).
近年来,随着深度学习
[2]
迅速发展,神经网络在图像处理中的应用
[3]
越来越广泛,人脸表情识别
[4-5]
也逐渐成为一个活跃的研究领域.很多学者对该问题进行了研究,Perveen 等
[6]
采用基尼系数进行表情识
别,该方法通过计算面部轮廓点与眼睛之间的相对距离来区分不同表情,但该方法对于变化不明显的表情
识别率较低.Teixeira 等
[7]
提出了一种简单的表情识别解决方案,它采用了卷积神经网络和特定的图像预处
理步骤,在指定的特征集上获得了较好的识别精度,虽然该方法提取的特征丰富,但容易受到人为因素的
干扰.Mayya 等
[8]
提出了一种利用深度卷积神经网络(DCNN)特征自动识别人脸表情的新方法,该模型着重
于从单个图像中识别个体的面部表情,由于使用通用图形处理单元(GPGPU),大大缩短了特征提取时
间.Li 等
[9]
提出了一种新的深度局部保留卷积神经网络(DLP-CNN)方法,它通过最大化类间离散度,保留
局部特性,最大限度地提高图像深度特征的识别能力.Yang 等
[10]
提出了一种基于双通道卷积神经网络的面
部表情识别方法,采用加权混合深度神经网络(WMDNN)自动提取有效特征,两个通道的输出以加权方式
融合,该算法针对六类面部表情识别精度较高,缺少对自然(Neutral)类表情的实验.Yao 等
[11]
提出了一种
基于 Wasserstein 生成对抗式网络的人脸图像生成网络以及表情识别网络,该方法通过在表情识别任务和
身份识别任务之间建立对抗关系来提取用户无关的表情特征并推断表情类别.但是,以上方法绝大部分都
是采用单一特征进行表情识别,输入特征可能会忽视部分细节信息,导致难以全面地表达人脸表情信息.
本文创新点在于针对单一数据难以全面表达表情特征的问题,提出了一种新的双路特征融合模型:
采用卷积神经网络(CNN)提取出丰富的隐式特征,利用方向梯度直方图(HOG)特征增强模型的稳定性和鲁
棒性,加入滑动窗口(sliding windows,SW)方法
[12]
进一步提高了网络模型性能.同时,为了更好地解决过
拟合问题,在卷积层和全连接层之间使用了 Dropout 技术
[13]
,随机抑制部分神经元的激活.为了解决梯度
消失的问题,在激活函数前加入批处理(batch normalization,BN)层,进一步提高了表情识别率.在模型测
试阶段,采用集成的方式减少异常值,进一步提高了准确率.实验表明了本文提出的双路特征融合模型在
人脸表情识别问题上的有效性.
1 表情数据库 1.1 FER2013 表情数据集
FER2013 表情数据库是由 Carrier 和 Courville
[14]
创建的,它是 ICML2013 面部表情识别挑战赛提供
的人脸表情数据库,由大小为 48×48 像素大小的人脸灰度图像构成.数据集中的人脸图像均经过居中处
理,并且人脸区域在每个图像中占据相同比例空间.
FER2013 数据库中的人脸表情均来自实际生活中的自然人脸表情,包含了 0~70 岁不同国籍、不同
肤色的面部表情,图 1 与图 2 中人脸图像没有经过对齐处理,有些标签不正确,有些样品甚至不包含人
脸.这种非摆拍、场景不固定、年龄跨度大的自然表情使得分类识别更具挑战性,因为这要求设计的模型
必须具有很好的泛化能力,并且对于不正确的数据具有良好的鲁棒性,从侧面也更加能够验证模型的识别
准确率.
图 1 FER2013 正常图片与非正常图片 Fig.1 Normal images and unnormral images on FER2013
图选项
图 2 FER2013 错误标签图片 Fig.2 Incorrect labels images on FER2103
图选项
1.2 CK+表情数据集
CK+
[15]
数据库发布于 2010 年,它是在 Cohn-Kanade Dataset 的基础上扩展而来的.这个数据库包
括 123 个人的 7 种不同表情序列,图 3 为 7 种表情示例图像.
图 3 CK+表情库示例图像 Fig.3 Expression images in CK+ dataset
图选项
CK+数据库和 JAFFE
[6]
数据库类似,志愿者均是在良好的实验条件下,根据要求对着摄像机做出指
定的表情动作,最后得到的人脸表情图像无论是在光照、角度、背景还是尺寸等参数上基本都是一致的,
并且志愿者的年龄跨度远小于 FER2013.由于该数据库是在实验室条件下获取的,所以较为严谨可靠.
2 本文模型方法
考虑单一特征无法全面表达面部表情特征的问题,本文模型融合双路特征对人脸表情进行识别.第一
路利用 CNN 提取图像局部特征,第二路通过计算和统计图像局部区域的梯度方向直方图来提取图像的
HOG 特征,最后利用 Softmax 函数进行特征分类.模型如图 4 所示,图中虚线框表示 HOG 特征的提取过
程.
图 4 双路特征融合模型 Fig.4 Model of dual-path feature fusion
图选项
2.1 HOG 特征提取
HOG 特征
[17]
目前被广泛应用于机器学习、模式识别和图像处理等领域.它是由 SIFT 特征
[18]
演变而
来,其对旋转、尺度缩放、亮度变化保持不变性.由于 HOG 特征是在图像的局部方格单元上进行操作,所
以它对图像几何形变和光学形变都能保持很好的不变性,提取特征效率也优于传统的手动特证提取方法,
能够很好地描述局部差分信息并且不易受到噪声的干扰.HOG 特征提取过程具体如下:
1) 归一化处理.利用 Gamma 校正法对输入图像进行颜色空间归一化,目的是调节图像对比度,降
低图像局部阴影和光照变化对结果造成的影响,同时可以抑制噪音的干扰.在图像的纹理强度中,局部的
表层曝光贡献比重较大,所以这种压缩处理能够有效地降低图像局部的阴影和光照变化.
(1)
2) 图像分割.将样本图像分割成大小为 8×8 像素的细胞单元(Cell),采用 9-bin 直方图来统计 Cell 的
梯度信息,然后将相邻的 4 个细胞单元(Cell)组成一个小块(Block),块与块之间采用重叠两个细胞单元的
方式进行滑动.最后,将所有的 Block 块组合成分割之后的图像.图 5 对应图 4 中提取 HOG 特征时统计得
到的梯度直方图.
图 5 9-bin 梯度直方图 Fig.5 9-bin gradient histogram
图选项
3) 梯度计算.利用梯度算子对原图像做卷积运算,得到 x 方向和 y 方向的梯度分量,然后再用式(2)
与式(3)计算该像素点的梯度大小和方向.求导操作不仅能够捕获轮廓信息以及纹理信息,还能进一步弱化
光照的影响.
图像中像素点(x,y)的梯度为
剩余11页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3643
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功