1. 引言
显著性预测是由 Treisman 和 Gelade 提出的特征整合理论
[1]
发展而来.随着计算机的发
展,90 年代,Itti 等人定义了第一个预测图像显著性的计算模型
[2]
,该模型基于多尺度低层
次特征的显著性图预测方法形成显著性图.Harel 等人从低层特征映射出发,引入了一种基
于图的显著性模型
[3]
Judd 等人
[4]
在每个图像位置提取低水平和自上而下的特征,并训练分
类器来确定每个位置是否显著.上述机器学习方法的局限性在于,它们在很大程度上依赖用
于学习的特性.这可以称为浅层学习.相比之下,深度学习方法能够从原始像素数据中学习丰
富的特征层次结构.Vig 等人提出的 Deep Networks(eDN)集成模型
[5]
,采用 3 层卷积稀疏编
码模型和分层神经网络来学习有效的图像特征.此后,Kümmerer 等人提出了两种深度显著
性预测网络
[6]
:第一种是基于 AlexNet 模型的 DeepGazeI,第二种是基于 19 层 VGG 网络
[7]
的 DeepGaze II
[8]
,并用 SALICON
[9]
数据集进行训练取得了较好的结果.Liu 等人提出一种端
到端显著性检测模型模型 DSCLSTM
[10]
,结合全局上下文和场景上下文来推断显著
性.Cornia 等人提出的显著性预测架构包含一个专注的卷积长短期记忆网路(Attentive
ConvLSTM)
[11]
,并探讨了两种 CNN 网络对模型的影响.此后,Pan 等人提出了一种通过对
抗性训练的用于显着性预测的深层网络(SalGAN)
[12]
.探讨了对抗网络生成器与鉴别器之间的
对抗损失, 使用广泛使用的损失函数(如 BCE)相结合时,对抗性训练如何在不同的度量标
准下实现最先进的性能.
随着深度卷积神经元网络(DCNN)的发展和大规模显著性数据集出现,基于 DCNN 的
显著性模型在 MIT 显著性基准上取得了优异的性能.为了充分利用优秀二维模型的优点,
本文提出了基于 ResNet 残差结构的的生成对抗网络视觉显著性预测模型,本文的主要工作
是:1)将传统生成对抗网络结构进行改进,融入 ResNet50 残差网络构建生成器; 2)对
ResNet 结构进行调整以使得生成器更有效地通过训练输出显著图; 3) 调整的生成器与对抗
训练损失函数,考虑了更有效的评价指标,对综合损失函数中的超参进行调整优化其在特
定图像上的性能.
2. 模型结构
网络模型的第一阶段是由一个生成器模型组成,其权值先用随机数函初始化再由显著
图的下采样图上计算二进制交叉熵 BCE 损失的反向传播来学习.所得到的显著图再由受训
练的判别器网络与真值图之间进行二值分类.整个模型结构如图 1.
评论0
最新资源