基于拉普拉斯金字塔深度残差的单目深度估计_深度估计资源-CSDN文库

需积分: 48 144 浏览量 2022-05-30 21:55:26 上传评论 5 收藏 5.39MB DOCX 举报

资源详情

资源评论

资源推荐

基于拉普拉斯金字塔深度残差的单目深度估计

摘要:随着深度神经网络生成模型的成功，单目深度估计被广泛应用于各种编码

器和译码器结构中。然而，以往大多数方法的解码过程重复了简单的上采样操

作，可能无法充分利用良好编码特征的底层特性进行单目深度估计。为了解决

这一问题，我们提出了一种简单而有效的方案将拉普拉斯金字塔加入解码器架

构。具体地说，将编码特征送入不同的流中对深度残差进行解码，深度残差通

过分解定义并将相应的输出逐步组合，重建出由粗到细的最终深度图。这对于

精确地估计深度边界以及全局布局是相当可取的。我们还提出将权值标准化应

用于解码器结构的预激活卷积块，这对改善梯度流有很大帮助，从而使优化更

容易。在各种室内和室外环境下构建的标准数据集上的实验结果表明，与现有

模型相比，该方法对单目深度估计是有效的。代码和模型可以在:

https://github.com/tjqansthd/LapDepth-release。

指数项-单目深度估计，深度残差，深度边界，拉普拉斯金字塔，权重标准化。

在现实世界的许多应用中，从单目图像进行深度估计一直是一个关键的任

务。例如，基于深度信息的统计可以有效地估计消失点的水平边界或位置，这

对于快速理解给定场景非常有用。这些线索在解释三维几何布局时往往具有显

著的优势，因此推断深度信息在自动驾驶系统领域已变得至关重要。由于这种

丰富的可能性，许多研究者投入了大量的努力来解决单目深度估计的问题。

在早期，基于人类感知的特征被广泛利用。例如，边缘方向的趋势和频率系数

的分布与感知深度特征密切相关，从给定图像[1]的局部区域进行聚合。准确地

从这些特征中提取统计信息，通常采用图像分割作为预处理步骤[2]，[3]。另一

方面，全局和特征的集成方案在场景识别[4]、[5]和深度估计中都得到了重视。

例如，有几项研究试图根据给定的彩色图像与其他场景的整体和局部结构相似

性来选择合适的深度值，然后进行优化过程，以细化深度估计图像[6]，[7]的可

见性。尽管最近利用这些精心设计的特征的方法在估计深度信息方面取得了重

大进展，但它们仍然缺乏仅凭一张图像就预测颜色和深度值之间复杂关系的能

力。

由于深度神经网络生成模型(deep neural network, DNN)的巨大成功，许多研

究者开始将深度估计问题表述为图像平移问题，即从彩色图像到深度图像的平

移问题。为了提取与深度信息相关的底层特征，卷积神经网络(CNN)被广泛采

用作为生成模型的主干架构。基于包括各种现实环境的大规模数据集，如

KITTI 自动驾驶数据集[8]和 NYU 深度数据集[9]，通过深度堆叠架构可以很好

地编码颜色和深度值之间的关系。一般情况下，深度信息是通过三维传感器进

行扫描的(如 LiDAR, Kinect 等)被用作监督学习方法的基础。另一方面，也有一

些尝试利用立体输入在无监督的方式进行单目深度估计[10]，[11]。尽管基于

DNN 的方法在没有任何领域知识的情况下显示出了揭示深度布局的强大能力，

但它们仍然在深度边界出现模糊。具体来说，现有的方法大多利用了从知名编

码器中提取的特征，如 VGG、ResNet 等。这些潜在特征通过对称结构的解码过

程被简单地向上采样回其原始大小，最后转换为深度图。这种转换过程很难考

虑不同尺度层次上对象的深度边界，因此可能会在对象边界之间产生不准确的

深度值。

为了解决这些问题，我们提出了一种新颖而简单的单目深度估计方法。该

方法的核心思想是利用基于拉普拉斯金字塔的解码器结构，精确解释编码特征

剩余21页未读，继续阅读

评论0

内容反馈

长沙有肥鱼

粉丝: 1w+
资源: 15

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip