没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
1. 论文阅读并翻译
SqueezeSeg文章地址:SqueezeSeg: Convolutional Neural Nets with Recurrent CRF for
Real-Time Road-Object Segmentation from 3D LiDAR Point Cloud
摘要
在本文中,我们从三维激光雷达点云的角度对道路目标进行了语义分割。我们特别希望检测和
分类感兴趣的实例,例如汽车、行人和骑自行车的人。我们制定这个问题作为一个逐点分类的
问题,并提出一个端到端的管道称为SqueezeSeg基于卷积神经网络(CNN):CNN需要改变激光
雷达点云直接输出作为输入,并逐点地标签地图,然后精制的条件随机场(CRF)实现为复发性层。
然后用传统的聚类算法得到实例级的标签。我们的CNN模型是在来自KITTI1数据集的激光雷达
点云上训练的,我们的逐点分割标签来自于KITTI的3D边框。为了获得额外的训练数据,我们
在广受欢迎的视频游戏《侠盗飞车V》(GTA-V)中构建了一个激光雷达模拟器,以合成大量真
实的训练数据。我们的实验表明,SqueezeSeg以惊人的快速和稳定性,每帧(8.7±0.5)ms的高
精度运行,高度可取的自主驾驶的应用程序。此外,对综合数据的训练可以提高对真实数据的验
证准确性。我们的源代码和合成数据将是开源的。
1.介绍
自动驾驶系统依赖于对环境的准确、实时和鲁棒的感知。自动驾驶汽车需要精确地分类和定
位“道路物体”,我们将其定义为与驾驶有关的物体,如汽车、行人、自行车和其他障碍物。
不同的自动驾驶解决方案可能有不同的传感器组合,但3D激光雷达扫描仪是最普遍的组件之
一。激光雷达扫描仪直接产生环境的距离测量,然后由车辆控制器和计划人员使用。此外,激
光雷达扫描仪在几乎所有的光照条件下都是健壮的,无论是白天还是黑夜,有或没有眩光和阴
影。因此,基于激光雷达的感知任务引起了广泛的研究关注。
在这项工作中,我们关注道路目标分割使用(Velodyne风格)三维激光雷达点云。给定激光雷达
扫描仪的点云输出,任务的目标是隔离感兴趣的对象并预测它们的类别,如图1所示。以前的
方法包括或使用以下阶段的部分:删除地面,将剩余的点聚到实例中,从每个集群中提取(手工
制作)特性,并根据其特性对每个集群进行分类。这种模式,尽管它的受欢迎程度2,3,4,5,有几个
缺点:a)地面分割在上面的管道通常依赖于手工特性或决策规则,一些方法依赖于一个标量阈
值6和其他需要更复杂的特性,比如表面法线7或不变的描述符4,所有这些可能无法概括,后者需
要大量的预处理。b)多级管道存在复合误差的聚合效应,上面管道中的分类或聚类算法无法利
用上下文,最重要的是对象的直接环境。c)很多去除地面的方法都依赖于迭代算法,如
RANSAC (random sample consensus) 5, GP-INSAC (Gaussian Process Incremental
sample consensus)2,agglomerative clustering2。这些算法组件的运行时间和精度取决于
随机初始化的质量,因此可能不稳定。这种不稳定性对于许多嵌入式应用程序(如自动驾驶)来
说是不可接受的。我们采取了另一种方法:使用深度学习来提取特征,开发一个单阶段的管道,
从而避开步骤迭代算法。
本文提出了一种基于卷积神经网络(CNN)和条件随机场(CRF)的端到端管道。CNNs和CRFs已
成功应用于二维图像8、9、10、11的分割任务。为了将CNNs应用于三维激光雷达点云,我们
设计了一个CNN,它接受变换后的激光雷达点云,并输出标签点地图,通过CRF模型进一步细
化。然后,通过对一个类别中的点应用传统的聚类算法(如DBSCAN)来获得实例级标签。为了
将3D点云提供给2D CNN,我们采用球面投影将稀疏的、不规则分布的3D点云转换为密集的
2D网格表示。所提出的CNN模型借鉴了squeeze zenet12的思想,经过精心设计,降低了参
数大小和计算复杂度,目的是降低内存需求,实现目标嵌入式应用程序的实时推理速度。将
CRF模型重构为一个循环神经网络(RNN)模块为11,可以与CNN模型进行端到端训练。我们
的模型是在基于KITTI数据集1的激光雷达点云上训练的,点分割标签是从KITTI的3D边框转换
而来的。为了获得更多的训练数据,我们利用Grand Theft Auto V (GTA-V)作为模拟器来检
索激光雷达点云和点级标签。
实验表明,这种方法精度高、速度快、稳定性好,适用于自动驾驶。我们还发现,用人工的、
噪声注入的模拟数据替代我们的数据集进一步提高了对真实世界数据的验证准确性。
2. 相关工作
A. 3维激光雷达点元的语义分割
以前的工作在激光雷达分割中看到了广泛的粒度范围,处理从特定组件到整个管道的任何事
情。7提出了基于网格的地面和基于局部表面凹凸性的目标分割。2总结了几种基于迭代算法的
诸如RANSAC (random sample consensus)和GP-INSAC (gaussian process incremental
sample consensus)的地面去除方法。最近的工作也集中在算法效率上。5提出了有效的地面
分割和聚类算法,而13绕过地面分割直接提取前景对象。4将重点扩展到整个管道,包括分
割、聚类和分类。提出了将点斑块重新划分为不同类别的背景和前景对象,然后使用EMST-
RANSAC5进一步集群实例。
B. 3D点云CNN
CNN方法考虑的是二维或三维的激光雷达点云。处理二维数据时考虑的是用激光雷达点云投
影自顶向下14或从许多其他视图15投影的原始图像。其他工作考虑的是三维数据本身,将空
间离散为体素和工程特征,如视差、平均和饱和度16。无论数据准备如何,深度学习方法都考
虑利用二维卷积17或三维卷积18神经网络的端对端模型。
C. 图像的语义分割
CNNs和CRFs都被用于图像的语义分割任务。8提议将经过分类训练的CNN模型转换为完全卷
积网络来预测像素级标签。9提出了一种用于图像分割的CRF公式,并用均值-场迭代算法近似
求解。CNNs和CRFs合并在10中,CNN用于生成初始概率图,CRF用于细化和恢复细节。
在11中,平均场迭代被重新表述为一个递归神经网络(RNN)模块。
D. 模拟数据采集
获取注释,特别是点或像素级的注释对于计算机视觉任务来说通常是非常困难的。因此,合成
数据集引起了越来越多的关注。在自动驾驶社区中,视频游戏《侠盗猎车手》被用来检索数
据,用于目标检测和分割19、20。
3.方法描述
A. 点云转换
传统CNN模型操作图像,可以由3-dimentional张量的大小 H × W × 3表示。前二维编码空间
位置,其中H和W分别为图像高度和宽度。最后一个维度编码特性,最常见的是RGB值。然
而,三维激光雷达点云通常表示为一组笛卡尔坐标(x, y, z),也可以包含额外的特征,如强度或
RGB值。与图像像素的分布不同,激光雷达点云的分布通常是稀疏而不规则的。因此,纯粹地
将3D空间离散为立体像素会导致过多的空voxels。处理这样的稀疏数据是低效的,浪费计
算。
为了获得更紧凑的表示,我们将激光雷达点云投射到一个球体上,以实现密集的、基于网格的
表示:
和 分别为方位角和顶角,如图2中A所示。
和 是离散化的分辨率,( , )表示2D球面网格上的点的位置。将等式(1)应用于
云中的每个点,我们可以获得大小为H × W × C的3D张量。在本文中,我们考虑从具有64个
垂直通道的Velodyne HDL-64E LiDAR收集的数据,因此H = 64。受KITTI数据集的数据注释
的限制,我们只考虑90°的前视图区域并将其划分为512个网格所以W = 512。C是每个点的特
征数。在我们的实验中,我们为每个点使用了5个特征:3个笛卡尔坐标(x,y,z),强度测
量和范围 。投影点云的示例可以在图2(B)中找到。可以看出,这种
表示是密集且规则地分布的,类似于普通图像(图2(C))。
这种特征使我们能够避免手工制作的功能,从而提高我们的表现形式所概括的几率。
B. 网络结构
我们的卷积神经网络结构如图3所示。
剩余36页未读,继续阅读
资源评论
今年也要加油呀
- 粉丝: 16
- 资源: 312
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功