传统的神经网络表情识别系统由特征提取和神经网络分类器组成,利用人的经验来获取模式特征,很容易丢失表征表情特征的细节信息。提出一种基于卷积神经网络的识别方法,避免了对图像进行复杂的特征提取,直接把图像数据作为输入。通过在Cohn-Kanade表情库上的实验结果表明,该方法能够取得很好的表情分类效果。
卷积神经网络(CNN)是一种深度学习模型,它在图像处理和计算机视觉任务中表现出色,包括人脸识别和表情识别。传统的神经网络表情识别系统依赖于手动特征提取,这可能导致细节信息丢失,而CNN则直接从原始图像中学习,减少了这个过程。CNN的核心在于它的卷积层、池化层和全连接层。
卷积层是CNN的基础,通过一组可学习的滤波器(或卷积核)对输入图像进行扫描,提取出特征。这些滤波器可以在图像的局部区域进行卷积操作,从而捕捉到图像的局部特征。在描述中提到的6层CNN结构中,C1层进行了第一次卷积,使用5x5的卷积核,并可能进行图像归一化。C3层增加了更多的特征图,进一步增强了特征提取能力。
池化层(S层)通常位于卷积层之后,用于减小数据维度,降低计算复杂性,同时保持关键信息。S2和S4层使用2x2的抽样窗口进行下采样,降低了特征图的尺寸,但保留了主要特征。
全连接层(F层)负责将提取的特征转换为分类决策。F5层连接前面所有层的特征,而F6层则对应于输出类别,通常神经元的数量与类别数相匹配。在这个6类表情识别问题中,F6层有6个神经元,分别对应高兴、悲伤、惊讶、恐惧、愤怒和厌恶。
实验部分,研究人员使用了Cohn-Kanade表情库和自拍表情图像作为训练和测试数据集。Cohn-Kanade库包含大量不同表情的图像,而自拍表情图像增加了真实世界应用场景的多样性。实验分3组进行,确保了模型的泛化能力。通过这些实验,结果证明基于CNN的表情识别方法不仅具有高精度,还展现出良好的鲁棒性,能够在不同来源的图像上有效工作。
基于卷积神经网络的人脸表情识别方法通过自动学习图像特征,有效地解决了传统方法中特征提取的难题,提高了识别系统的准确性和效率。这种方法在未来的应用中,有望推动人机交互和智能系统的进步。