没有合适的资源?快使用搜索试试~ 我知道了~
基于拉普拉斯金字塔深度残差的单目深度估计
需积分: 48 16 下载量 144 浏览量
2022-05-30
21:55:26
上传
评论 5
收藏 5.39MB DOCX 举报
温馨提示
试读
22页
Monocular Depth Estimation Using Laplacian Pyramid-Based Depth Residuals---->基于拉普拉斯金字塔深度残差的单目深度估计 是一篇优秀的CVPR文档 word全文翻译
资源详情
资源评论
资源推荐
基于拉普拉斯金字塔深度残差的单目深度估计
摘要:随着深度神经网络生成模型的成功,单目深度估计被广泛应用于各种编码
器和译码器结构中。然而,以往大多数方法的解码过程重复了简单的上采样操
作,可能无法充分利用良好编码特征的底层特性进行单目深度估计。为了解决
这一问题,我们提出了一种简单而有效的方案将拉普拉斯金字塔加入解码器架
构。具体地说,将编码特征送入不同的流中对深度残差进行解码,深度残差通
过分解定义并将相应的输出逐步组合,重建出由粗到细的最终深度图。这对于
精确地估计深度边界以及全局布局是相当可取的。我们还提出将权值标准化应
用于解码器结构的预激活卷积块,这对改善梯度流有很大帮助,从而使优化更
容易。在各种室内和室外环境下构建的标准数据集上的实验结果表明,与现有
模型相比,该方法对单目深度估计是有效的。代码和模型可以在:
https://github.com/tjqansthd/LapDepth-release。
指数项-单目深度估计,深度残差,深度边界,拉普拉斯金字塔,权重标准化。
在现实世界的许多应用中,从单目图像进行深度估计一直是一个关键的任
务。例如,基于深度信息的统计可以有效地估计消失点的水平边界或位置,这
对于快速理解给定场景非常有用。这些线索在解释三维几何布局时往往具有显
著的优势,因此推断深度信息在自动驾驶系统领域已变得至关重要。由于这种
丰富的可能性,许多研究者投入了大量的努力来解决单目深度估计的问题。
在早期,基于人类感知的特征被广泛利用。例如,边缘方向的趋势和频率系数
的分布与感知深度特征密切相关,从给定图像[1]的局部区域进行聚合。准确地
从这些特征中提取统计信息,通常采用图像分割作为预处理步骤[2],[3]。另一
方面,全局和特征的集成方案在场景识别[4]、[5]和深度估计中都得到了重视。
例如,有几项研究试图根据给定的彩色图像与其他场景的整体和局部结构相似
性来选择合适的深度值,然后进行优化过程,以细化深度估计图像[6],[7]的可
见性。尽管最近利用这些精心设计的特征的方法在估计深度信息方面取得了重
大进展,但它们仍然缺乏仅凭一张图像就预测颜色和深度值之间复杂关系的能
力。
由于深度神经网络生成模型(deep neural network, DNN)的巨大成功,许多研
究者开始将深度估计问题表述为图像平移问题,即从彩色图像到深度图像的平
移问题。为了提取与深度信息相关的底层特征,卷积神经网络(CNN)被广泛采
用作为生成模型的主干架构。基于包括各种现实环境的大规模数据集,如
KITTI 自动驾驶数据集[8]和 NYU 深度数据集[9],通过深度堆叠架构可以很好
地编码颜色和深度值之间的关系。一般情况下,深度信息是通过三维传感器进
行扫描的(如 LiDAR, Kinect 等)被用作监督学习方法的基础。另一方面,也有一
些尝试利用立体输入在无监督的方式进行单目深度估计[10],[11]。 尽管基于
DNN 的方法在没有任何领域知识的情况下显示出了揭示深度布局的强大能力,
但它们仍然在深度边界出现模糊。具体来说,现有的方法大多利用了从知名编
码器中提取的特征,如 VGG、ResNet 等。这些潜在特征通过对称结构的解码过
程被简单地向上采样回其原始大小,最后转换为深度图。这种转换过程很难考
虑不同尺度层次上对象的深度边界,因此可能会在对象边界之间产生不准确的
深度值。
为了解决这些问题,我们提出了一种新颖而简单的单目深度估计方法。该
方法的核心思想是利用基于拉普拉斯金字塔的解码器结构,精确解释编码特征
与最终输出之间的关系,用于单目深度估计。拉普拉斯算子因其保留给定数据
[12]的局部信息的能力而被广泛应用于场景理解的各个领域。我们的想法受到
了拉普拉斯金字塔的启发,它成功地强调了不同尺度空间的差异,这与物体边
界高度相关。具体地说,编码特征被送入堆叠的卷积块,在每个金字塔层产生
子带深度残差。结合每个金字塔层的深度残差,从粗到细的尺度逐步恢复深度
图。该恢复过程有助于提高深度边界的预测性能。我们不只是重复上采样操作
来恢复到原始分辨率,我们建议用输入的彩色图像的残差来指导解码过程,这
些残差来自于拉普拉斯金字塔的不同层次,并结合预测结果(即深度残差)由粗
到细,逐步重建最终的深度图。基于多层深度残差解码方案,我们可以更有效
地利用编码特征来估计复杂场景中的深度信息。此外,我们还提出了将权值标
准化应用于预激活卷积块,这对于改善梯度流和使收敛稳定而不损失性能是非
常有效的。图 1 所示为用本文方法进行深度估计的实例。所提出的方法的主要
贡献可归纳如下:
图 1 所示:从上到下:输入彩色图像、地面真实值和本方法的估计结果。注意,左
边的两个示例来自 KITTI 数据集[8],而右边的属于 NYU Depth V2 数据集[9]。
•我们建议采用拉普拉斯金字塔法来解决单目深度估计的问题。该方法通过对拉
普拉斯金字塔不同层次的编码特征进行深度残差恢复,并逐步汇总预测结果,
成功地恢复了深度边界等局部细节以及全局布局。
•通过对预激活的卷积块(我们的解码器架构的基本模块)进行权值标准化,可以
有效地提高梯度流,从而可以稳定地训练网络来估计大部分值为零的深度残差,
即稀疏的深度残差。
•我们展示了在复杂的室内和室外环境下构建的基准数据集上的各种实验结果,
并展示了与现有方法相比,所提出的方法的效率和鲁棒性。
本文的其余部分组织如下。第二部分简要回顾了相关工作。所提出的方法将在
第三节中解释。在基准数据集上的实验结果和消融研究报告在第四节。结论在
第五节之后。
II.相关工作
在本节中,我们对以往的单目深度估计研究进行了比较回顾,可分为两大
类,即手工特征方法和基于深度学习的方法。
A.手工特征方法
早期的工作主要是利用从给定的彩色图像中获取的统计特征进行单眼深度
估计。作为第一步,Torralba 和 Oliva[1]根据深度变化探究了光谱量级的性质。
Saxena 等[3]利用平面布局(包括三维位置和方向)预测深度值,该平面布局基于
马尔可夫随机场(MRF),结合边缘方向、色值等几种纹理特征估计深度值 。
Chun 等人[13]利用地面区域的位置信息,例如到最高处楼点的相对距离,从一
个室内场景估计深度图。最近的方法集中于通过计算与其他场景的结构相似性
来找到给定图像的适当深度值,这些场景已经有了真正的深度信息。Karsch 等
剩余21页未读,继续阅读
长沙有肥鱼
- 粉丝: 1w+
- 资源: 15
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 人工智能ai相关教学课程快
- Suno的冲击-AI音乐来了-学习备用.pdf
- KIMI大模型浏览器插件
- b61fa64a08a02de0e0d49d53bb84c444.amr
- 分布式系统中Java后端开发技术及其应用实践.pdf
- 5ffd9193f6aec31bbf16030a46680dc7.avi
- DA14531-蓝牙传感器连接传输数据固件
- 极限存在准则与两个重要极限
- logisim实验MIPS运算器(ALU)设计(内含4位先行进位74182、四位快速加法器、32位快速加法器)-Educoder_logisim里面连线,实现4位先行进位74182和4位快速加法器-C
- 高等数学第一章第二节数列的极限
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0