实验三 语义分割
一、 实验要求
使用基于深度学习的方法全卷积网络(Fully Convolution Network,FCN)在 Pascal VOC
训练集上进行训练,然后将训练后的模型在 Pascal VOC 验证集上进行测试。为了减小所需
的计算资源,训练时统一使用 480x480 的图片尺寸。
此外,使用的深度模型包括:
1) 一个使用 ResNet-18 作为骨干网络的 Output Stride=16 的 FCN,即将 ResNet 最后
一个 stage 的下采样层去掉、卷积层的 dilation 设置为 2;
2) (与第三点二选一)基于上述的 FCN,结合至少一种课上提到的、对上下文语境建
模(Context Modeling)的方法,例如 ASPP、PPM 等;
3) (与第二点二选一)基于上述的 FCN,结合 Transformer Block 的方法。
二、 实验原理
语义分割,即给定一张输入图像,利用模型输出该图像上每一个像素对应的类别预测或
者属于某一类别的概率。由于该任务需要对每个像素都进行预测,语义分割又被称作稠密预
测任务(Dense Prediction)。不同于图像分类只需对整张图片输出一个概率分布向量,语义
分割中需要对图片中的所有像素都生成一个与之对应的概率分布向量,因此要求模型最终输
出的特征图与输入图像具有相同的分辨率,并且具有与像素所属类别数同样多的通道数。
本次实验采用两个模型完成语义分割任务(即“实验要求”中的“1)”和“2)”),分
别是下采样率为 32 的全卷积 ResNet18 模型(记作 ResNet18-FCN),和结合了 ASPP 的
ResNet18(记作 ResNet18-ASPP)。
1. 全卷积 ResNet18
全卷积 ResNet18(ResNet18-FCN)的基本设计与原版 FCN
1
相同,只是
1
中使用 VGG 作
为卷积网络,而此处我们将其替换为 ResNet18。
相比于标准 ResNet18,ResNet18-FCN 去掉了其最高层的全局池化和全连接层,用一个
1x1 卷积和一个 32 倍上采样层取而代之。其中 1x1 卷积用于将 512 通道的特征图转换为 N
通道(N 为像素的类别数),而上采样层用于将特征图的分辨率恢复到与原输入图像相同,
以进行稠密预测。
图 1.1 ResNet18-FCN 的构建细节
评论0
最新资源