"基于特征融合的深度学习场景识别与应用"
深度学习在图像识别领域已取得了巨大成功,但在场景图像识别领域进展较慢。原因在于,相比以对象为中心的图像识别,场景图像包含的语义信息更丰富,既包括对象信息也包括全局信息。
场景识别是计算机视觉一个重要的研究课题,其目的是让计算机像人类一样,通过视觉理解场景语义信息。然而,由于场景语义信息丰富,通常包含背景、时间、行为、情感以及物体空间位置等多层语义信息,并且同类场景之间普遍存在着较大的差异性,使得场景识别研究充满挑战。
近年来,随着深度卷积神经网络(DCNN)在图像识别领域取得的巨大成功,以及自动驾驶、无人机、工业机器人和增强现实等行业应用的快速发展,场景识别受到了众多学者的关注。
文献[1,2]对深度学习方法的应用进行了深入的调研和综述,并从特征提取的角度对国内外主流的场景分类方法进行了详细阐述。
文献[3]调研了场景识别中的深度学习方法,介绍了场景识别技术的主要研究内容和发展情况,列举了一些深度学习方法在场景识别中的应用案例。
文献[4]总结了近年来深度学习的最新进展,介绍了深度学习和神经网络在计算机视觉和自然语言处理等方面取得的重大突破。
文献[5]认为,在图像识别数据集上训练的卷积神经网络(CNN)亦可用于场景识别任务,并使用在 ImageNet 数据集上预训练的 CNN,提取了四个不同卷积层的特征用于场景识别,在 sports-8、scene-15 和 indoor-67 数据集上分别获得了 93.8%、88.4% 和 68.9% 的识别准确率。
文献[6]建立了一个 476 类场景,共计 700 万张图片的场景识别数据集,并提出了一种新的方法来比较不同数据集的密度和多样性。
文献[7]从物体数量和尺度方面探讨了物体分类和场景分类数据集的差异性,以及如何将物体分类和场景分类这两块知识进行有效结合,提升场景分类准确率的问题。
文献[8]将 GoogLeNet 分成三个模块,然后组合三个模块的输出特征用于场景分类,在 scene-15、MIT67 和 SUN397 数据集上分别取得了 92.90%、79.63% 和 64.06% 的识别准确率。
文献[9]以 AlexNet 网络模型为基础,分别从模型的深度、宽度、多尺度化提取以及多层融合方面进行改进,改进模型在 scene-15、sports-8 数据集上分别达到了 92.0% 和 94.5% 的识别准确率。
文献[10]使用在场景数据集上预训练的 CNN 模型,提取 CNN 不同层的特征,构成场景图像的差异特征图,并以此为样本训练了一个 CNN 二分类模型,来判断两张图像是否属于同一个场景。
文献[11]在训练样本较少的情况下,提出了一种可以自适应调节网络学习率和样本训练方式的场景分类算法。通过在 scene-15、cifar-10 场景数据集上进行实验,验证了其方法的有效性。
文献[12]用高斯金字塔和区域选择算法得到室内图像的多尺度显著区域信息,然后采用 CNN 对获取的显著区域进行特征学习,最后通过多层感知机实现室内场景图像分类。
文献[13]提出了一种集成卷积神经网络算法,用于遥感影像场景分类。首先提取图像的颜色矩、纹理特征和形状特征,然后将这些特征组合成一个向量,最后通过支持向量机(SVM)分类器对场景进行分类。
基于以上文献的研究成果,本文提出了基于特征融合的深度学习场景识别方法。该方法在 VGG16 模型基础上,融合场景图像的微观特征和宏观特征,以提高场景图像的识别准确率。实验显示,修改后的模型在 scene-15 和 electric-5 数据集上 top-1 准确率分别达到了 92.05% 和 80.45%,相比 VGG16 分别提高了 2.45 和 6.78 个百分点。
本文的主要贡献在于提出了一种基于特征融合的深度学习场景识别方法,并且在 scene-15 和 electric-5 数据集上取得了良好的实验结果。该方法可以应用于电力行业的场景识别,具有重要的实际应用价值。