1. 引言
目前,随着深度学习发展和研究的深入,目标检测、图像分类、语义分割等方面的研
究取得了长足的发展和进步,尤其是出现了以 R-CNN、Fast R-CNN、Faster R-CNN、Mask
R-CNN 为代表的双阶段网络框架和以 YOLO、SSD 为代表的单阶段网络框架
[1]
.其中,二维
目标检测作为研究的重点,仅能用于图像的像素坐标回归,缺乏深度、尺寸等衡量真实世
界的信息,难以应用于在实际场景中,限制了无人驾驶、自动化、物联网等领域的发展,
处理此类场景时往往需要通过结合激光雷达、毫米波等传感器实现多模态融合算法,进而
加强感知系统的可靠性
[2]
.
因此,相关研究人员提出了三维目标检测的方法,目的在于获取现实世界中目标的姿
态、位置等信息.根据传感器的不同,三维目标检测算法大致可以分为以下三类:基于视觉
信息的处理方式、基于激光点云的检测算法和多模态融合算法.其中,基于视觉的三维目标
检测算法以其成本低廉、检测效果明显等优势被广泛应用.根据其图像获取深度信息方式的
不同可分为单目视觉和深度视觉两类.深度信息的缺失导致前者所检测的目标在空间中的定
位误差较大.而后者在提供较为,还具有较为准确的深度信息,目前相比前者具有更高的检
测精度.
2. 相关工作
目前绝大多数的三维目标检测方法都依赖激光点云来提供精确的三维信息,通过处理
不同表示形式的激光雷达数据获取深度信息,文献[4]、[5]、[6]、[7]、[8]将处理后的点云
数据送至卷积神经网络,其中文献[4]、[7]、[8]将多个激光雷达数据与 RGB 图像融合来获
得更加密集的深度信息,文献[9]、[10]、[11]、[12]利用结构体坐标对原始点云数据进行量
化,然后使用二维或三维区域卷积神经网络来检测三维目标,而文献[13]采用多个框架作
为输入,同时进行目标定位、跟踪和运动轨迹预测.此外,不同于量化点云数据,文献[14]
直接将原始点云作为输入,基于二维目标检测和 PointNet
[15]
结构计算截锥区域进行定位.
本文研究了基于背景平面假设、形状先验、上下文特征和实例分割的单目图像生成三
维目标区域.在 Faster R-CNN 网络的基础上,文献[16]提出 Mono3D 三维目标检测算法,通
过结合目标先验信息、语义信息和上下文信息计算网络的损失函数,进而检测三维目标位
置,但是该算法的计算量非常大,检测速度较慢.文献[17]提出了 Deep 3D bbox 的三维目标
检测方法.该方法利用二维目标检测方法简化了网络结构,利用回归的方法获取目标的深度
信息,但深度信息的缺失导致检测精度上并没有大幅度的提升.
基于双目视觉的三维目标检测方法较少.3DOP
[18]
通过编码目标尺寸优先级、地平面估
计和深度信息生成三维候选区域,并提出了基于多特征先验信息的损失函数,随后通过 R-
评论0
最新资源