摘要
由于遥感影像中建筑物的纹理的复杂性和背景的多样性,从高分辨率遥感图像中实现建筑物自动提
取是一个具有挑战性的任务。现有的最先进的深度学习框架使用重复的池化操作,导致详细信息的
丢失。在 LinkNet 框架上结合空洞卷积、注意力机制和多尺度预测,提出了 ADLinkNet,并在 WHU
Building 数据集上进行了测试。实验结果表明,ADLinkNet 优于 DeepLabv3、UNet、SegNet
和 D-LinkNet 等。
Abstract
Due to the complexity of texture and diversity of background of buildings in remote
sensing images, automatically extracting buildings from high-resolution sensing
images is a challenging task. The most advanced deep learning frameworks use
repeated pooling operations, resulting in the loss of detailed information. Therefore,
we combine the dilated convolution, attention module and multi-scale prediction
based on the LinkNet to propose ADLinkNet. And then we test it on WHU Building
dataset. The experimental results show that ADLinkNet is superior to DeepLabv3,
UNet, SegNet and D-LinkNet, etc.
译
关键词
空洞卷积; 注意力机制; 高分辨率影像; ADLinkNet
Keywords
dilated convolution; attention module; high-resolution remote sensing
images; ADLinkNet
译
近年来全世界发射了大量卫星,获取了大量低成本的高分辨率遥感影像。各国将获取的遥感影像用
于城市规划建设、道路网设计和导航地图的制作等
[1- 4]
。而建筑物是城市地区影像的重要目标,在
城市管理方面有重要意义。人工从遥感图像中提取特征大多是基于人对建筑物观察、理解和归纳的
经验。然而遥感影像中地物类别复杂,信息量大,不同地区的建筑物形状、尺寸、纹理不同,不同
时间的建筑物色彩也不同,并经常受到阴影和遮挡等客观因素影响,因此基于人工设计的特征的方
法效果不令人满意。
随着计算机算力的快速提高,深度学习得到了快速发展。在图像领域,卷积神经网络(convolutio-
nal neural network,CNN)得到了广泛 应 用 ,2015 年微软亚洲研 究 院 宣 布 其基于深度学习技
术开发的计算机视觉系统在 ImageNet 数据集上 1 000 类物体分类的错误率已降至 4.94%
[5]
,好
于 人 眼 识 别 效 果 。 在 图 像 分 割 领 域 , Shelhamer 等
[6]
提 出 了 全 卷 积 网 络 ( fully convolutional
networks,FCN),这已经成为图像分割领域的范式。在此基础上,一些学者提出了很多模型,
例如 DeepLab
[7]
、D-LinkNet
[8]
、RefineNet
[9]
、UNet
[10 ]
、SegNet
[11 ]
等。然而在复杂场景中仍然
有很大的空 间去利 用更多 的信息。对于高分辨率 遥感影 像,不 同地区建筑物尺 寸差异 很大, 因此,
本文利用空洞卷积和注意力机制提出了一种新的 FCN 模型 ADLinkNet,以自动提取高分辨率遥感