基于深度学习的单目深度估计总结.zip_单目深度估计资源-CSDN文库

共73个文件

pdf：23个

py：20个

pyc：11个

版权申诉

深度学习

人工智能

57 浏览量 2024-03-28 20:58:33 上传评论收藏 100.69MB ZIP 举报

《基于深度学习的单目深度估计总结》在当今的人工智能领域，深度学习作为一种强大的机器学习技术，已经在计算机视觉、自然语言处理等多个领域取得了显著的成果。本毕业设计及课程设计聚焦于深度学习在单目深度估计上的应用，这是一种通过单一的彩色图像来推断场景中每个像素的深度信息的技术。下面我们将深入探讨这一主题。一、单目深度估计的挑战与重要性单目深度估计的核心挑战在于，仅凭一张二维图像，我们需要解决的是一个逆问题，即从平面的像素信息恢复出三维空间的信息。此外，该问题具有高度的不确定性，因为相同的颜色和纹理可能对应于不同距离的物体。尽管如此，单目深度估计在自动驾驶、机器人导航、3D重建等领域具有广泛的应用价值。二、深度学习在单目深度估计中的应用深度学习，特别是卷积神经网络（CNN），因其强大的特征提取能力，在单目深度估计上展现出巨大潜力。早期的方法如SfM-Net和Deep3D利用CNN进行特征匹配和立体匹配，但这些方法通常依赖于大量的立体图像对进行训练。近年来，随着无监督学习和自监督学习的发展，模型可以直接在大规模的未标注图像数据集上进行训练，例如通过光流法、深度监督或相对深度预测等策略。三、深度学习模型架构 1. 基于深度回归的模型：这类模型直接预测像素级别的深度值，如Eigen等人提出的DeepLabv3+，它通过多尺度的解码器结构来获取更精确的深度信息。 2. 基于分层的模型：这些模型将深度空间划分为多个层次，如DispNetC，通过逐层预测来逐步细化深度图。 3. 基于自注意力机制的模型：如Attentional Encoder-Decoder，利用自注意力机制来捕获全局上下文信息，提升深度估计的准确性。 4. 基于先验知识的模型：一些工作如Monodepth2结合了先验知识，如相机运动模型，提高深度估计的稳定性。四、损失函数的选择深度学习模型的训练通常涉及多种损失函数，如绝对误差（L1）、平方误差（L2）、对数误差（log10）等。其中，对数误差可以缓解深度的长期偏斜问题，而相对深度误差可以处理局部几何结构的保持。五、评估与优化常用的评估指标有平均绝对误差（MAE）、均方根误差（RMSE）、百分比优于阈值（D1-all）等。优化方面，除了模型结构的改进，还可以通过数据增强、预训练模型迁移学习、模型轻量化等方式提升性能。六、未来发展方向尽管深度学习在单目深度估计上取得了显著进步，但仍有诸多挑战，如实时性、鲁棒性、泛化能力等。未来的研究可能包括探索更高效的网络结构、引入更多先验知识、利用多模态信息以及强化学习等方法。基于深度学习的单目深度估计是一个充满挑战且富有前景的研究领域。随着技术的不断进步，我们有望看到更准确、更快速的单目深度估计方案，为人工智能应用提供更强大的三维理解能力。

资源推荐

资源详情

资源评论

收起资源包目录

基于深度学习的单目深度估计总结.zip （73个子文件）

ignore4134

dibr相关

gpu-rgb-d.caj 3.99MB

基于改进的 DIBR 算法的 2D-3D 图像转换系统.caj 897KB

基于深度图的虚拟视点绘制技术研究.pdf 0B

Research on Virtual View Rendering Based on DIBR.pdf 1.84MB

A Novel DIBR 3D Image Watermarking Algorithm Resist to Geometrical Attacks 757KB

3D Video Conversion Method Based on the Depth of the Image Description 877KB

Hole-Filling for DIBR Based on Depth andGradient Information.pdf 573KB

递进填充线算法对DIBR虚拟图像的修复.pdf 2.29MB

基于相对深度2015.6

Learning Ordinal Relationships for Mid-Level Vision.pdf 8.75MB

6489-single-image-depth-perception-in-the-wild(1).pdf 5.84MB

db878f58e70dec1daee567bc5ea84f9ca2a5.pdf 819KB

Multi-scale的卷积网络结构2015

Predicting Depth, Surface Normals and Semantic Labelswith a Common Multi-Scale Convolutional Architecture.pdf 8.98MB

Depth Map Prediction from a Single Imageusing a Multi-Scale Deep Network.pdf 6.27MB

依靠于深度信息本身的性质

除了语义分割信息有没有其他信息和深度信息也相似的？

SURGE_ Surface Regularized Geometry Estimationfrom a Single Image.pdf 5.34MB

场景中语义分割信息相似的物体所拥有的深度信息是相似的

Towards Unified Depth and Semantic Prediction from a Single Image.pdf 9.35MB

把预测深度当做一个分类问题更好解_

SINGLE IMAGE DEPTH ESTIMATION BY DILATED DEEP RESIDUAL CONVOLUTIONALNEURAL NETWORK AND SOFT-WEIGHT-SUM INFERENCE.pdf 1.23MB

1Estimating Depth from Monocular Images asClassification Using Deep Fully ConvolutionalResidual Networks.pdf 1.11MB

2Dto3Dconversionalgorithms.pdf 1018KB

非监督学习2016.7

Unsupervised Monocular Depth Estimation with Left-Right Consistency.pdf 6.88MB

Semi-Supervised Deep Learning for Monocular Depth Map Prediction.pdf 11.31MB

Unsupervised CNN for Single View DepthEstimation_ Geometry to the Rescue.pdf 8.11MB

基于CRF的方法2015

Multi-Scale Continuous CRFs as Sequential Deep Networksfor Monocular Depth Estimation.pdf 4.39MB

Depth and surface normal estimation from monocular images using regression on deep features andhierarchical CRFs.pdf 299KB

Deep Convolutional Neural Fields for Depth Estimation from a Single Image.pdf 2.64MB

images

fcrn-faces2.png 857KB

senet-faces1.png 767KB

fcrn-faces1.png 728KB

senet-faces2.png 841KB

senet-faces3.png 664KB

fcrn-faces3.png 686KB

3d-image-waring.pdf 584KB

README.md 6KB

code

faces_detect_depth

1606.00373.pdf 5.74MB

faces_depth.py 8KB

1803.08673.pdf 3.37MB

fcrn_run.py 5KB

loaddata.py 3KB

nyu_transform.py 10KB

NYU_FCRNmodels

__init__.py 33B

network.py 15KB

fcrn.pyc 7KB

network.pyc 15KB

__init__.pyc 201B

fcrn.py 11KB

senet_run.py 5KB

demo_transform.py 3KB

define_size.py 372B

model_path.py 106B

cv_glabcut.py 7KB

pytorch_models

__init__.py 0B

modules.pyc 9KB

net.pyc 2KB

senet.pyc 15KB

senet.py 16KB

__init__.pyc 199B

modules.py 7KB

resnet.pyc 8KB

densenet.py 6KB

resnet.py 7KB

densenet.pyc 8KB

net.py 882B

define_size.pyc 652B

loaddata_demo.py 2KB

faces_depth

senet-faces2.jpg 192KB

fcrn-faces2.jpg 194KB

senet-faces3.jpg 138KB

senet-faces1.jpg 167KB

fcrn-faces3.jpg 142KB

fcrn-faces1.jpg 163KB

loaddata_demo.pyc 2KB

README.md 2KB

sobel.py 764B

3d-image-waring.odt 1.01MB

# PrectictingDepth-DeepLearn-pdf ################################################################### 参考：https://blog.csdn.net/qq_39732684/article/details/80936492 其原文说明：作者：知乎用户链接：https://www.zhihu.com/question/53354718/answer/209398048 来源：知乎 ################################################################## 说明：根据总结，下载了所述论文，并分类 ################################################################# 原文：我觉得近几年采用深度学习来解决深度估计的思路可以分为好几类：第一类仅仅依靠深度学习和网络架构得到结果最近这部分文章我较为详细的总结在了专栏里：深度学习之单目深度估计 (Chapter.1)：基础篇 1. 引用最多、最早的是Eigen组的两篇文章，相对于简单粗暴的使用卷积神经网络回归来得到结果，主要卖点是采用Multi-scale的卷积网络结构（2015年）： Predicting Depth, Surface Normals and Semantic Labels with a Common Multi-Scale Convolutional Architecture Depth Map Prediction from a Single Image using a Multi-Scale Deep Network 2. 之后在2016年，Laina依靠更深层次的网络和一个“novel”的逆卷积结构再加上一个"novel"的loss来得到结果。其实我认为这篇文章的贡献点不是很大，主要是pretrain的ResNet-50帮了很大的忙。这个方法被他们组改进然后用到了之后CVPR2017用来重建SLAM的文章中。 Deeper Depth Prediction with Fully Convolutional Residual Networks （3DV 2016） CNN-SLAM: Real-time dense monocular SLAM with learned depth prediction（2017 CVPR）第二类依靠于深度信息本身的性质 1. 深度信息和语义分割信息具有很强的相关性：场景中语义分割信息相似的物体所拥有的深度信息是相似的。 Towards Unified Depth and Semantic Prediction From a Single Image (CVPR 2015) 2. 之后接下来又有文章试图去做了语义分割和深度信息的升级版：除了语义分割信息有没有其他信息和深度信息也相似的？ SURGE: Surface Regularized Geometry Estimation from a Single Image（NIPS 2016） 3. 深度信息本就是一个从远到近一层一层的分类，是不是把预测深度当做一个分类问题更好解一点，搜文章的时候搜到了这两篇用到了这个思路： Estimating Depth from Monocular Images as Classification Using Deep Fully Convolutional Residual Networks Single image depth estimation by dilated deep residual convolutional neural network and soft-weight-sum inference 第三类基于CRF的方法 CRF之前一直在语义分割问题上表现的很好，包括CRFasRNN，DeepLab等等，几乎成为了这种回归问题的标配。这一类的方法采用CRF是因为通常CNN用来做回归时产生的图都比较糊(blur), CRF可以通过条件概率建模的方法将糊的图片变得不糊。这是一种纯数学解决问题的方法，与深度信息本身的物理性质关系不大。 Deep Convolutional Neural Fields for Depth Estimation from a Single Image（2015 CVPR） Depth and surface normal estimation from monocular images using regression on deep features and hierarchical CRFs(2015 CVPR) Multi-Scale Continuous CRFs as Sequential Deep Networks for Monocular Depth Estimation (2017 CVPR) 第四类基于相对深度接下来介绍的这一类是我觉得最有意思的一个方法。总的来说就是利用了深度信息的基本特征：图片中的点与点之间的是有相对远近关系的。NIPS2016这篇文章自己构建了一个相对深度的数据库，每张图片之中仅仅标注两个随机点之间的相对远近关系，通过一个神经网络的训练就能得到原图之中的相对深度信息。而且，一般的方法通常是针对某个数据库的数据范围的（NYUv2用来做室内深度预测，深度的ground truth 是 0~10m，KITTI用来处理行车道路信息，深度的ground truth 是 0~70m）,这篇文章的深度是没有这种限制的。这篇文章得到的深度信息感觉是很amazing的一件事，为这篇文章打call！但是缺点也很明显，由于是相对深度信息仅仅得到的数据表示了当前图片中物体的远近关系和真实深度信息有很大的区别。 Single-Image Depth Perception in the Wild (NIPS2016) 当然这种相对关系的想法第一个提出来应该是下面这篇文章。不过我觉得这篇文章生成的图看起来太“超像素”了，不太smooth（因为它训练的时候就是使用的是图片中超像素的中点）： Learning Ordinal Relationships for Mid-Level Vision（2015ICCV）第五类非监督学习最近这部分文章我较为详细的总结在了专栏里：深度学习之单目深度估计 (Chapter.2)：无监督学习篇所谓使用非监督学习来训练就是利用不知道ground truth的输入图片训练来得到深度信息。既然没有深度的ground truth那肯定有来自于其他地方的约束，比如使用stereo image。stereo image是来自两个相机（或者双目相机）在同一水平线上左右相距一定位置得到的两幅图片。这种图片获取的代价要比深度的ground truth 低一些。这些方法利用了深度信息和场景之间的一些物理规律来约束，感觉得到了很不错的结果，这三个方法可以说是一脉相承： Unsupervised CNN for Single View Depth Estimation: Geometry to the Rescue（2016 ECCV) Unsupervised Monocular Depth Estimation with Left-Right Consistency (2017 CVPR) Semi-Supervised Deep Learning for Monocular Depth Map Prediction （2017 CVPR）总结其实感觉同样是image to image 的转换，深度信息相比于语义分割关注的人要少很多，很多语义分割方面的方法就会有可能直接用到深度预测方面。比如Estimating Depth from Monocular Images as Classification Using Deep Fully Convolutional Residual Networks 这篇文章其实就和CRFasRNN很像。

评论收藏

内容反馈

版权申诉