0 引言
同步定位和制图(SLAM)一直被认为机器人定位导航以及无人驾驶的核心技术,而利用摄像头作为传
感器的视觉 SLAM 在近几十年也得到了广泛的研究,在这期间涌现了大量优秀的 SLAM 方法,为后人对
SLAM 技术的研究打下了坚实的基础。视觉 SLAM 按照传感器的不同可以分为两类:一类是单目
SLAM,一类是双目 SLAM。MonoSLAM(real-time single camera SLAM)
[1]
、PTAM(parallel tracking and
mapping)
[2]
、LSD-SLAM(large scal direct monocular SLAM)
[3]
、DSO(direct sparse odometry)
[4]
都是以单
目为主的 SLAM 系统。MonoSLAM 是第一个实时的单目视觉 SLAM 系统,被认为是许多 SLAM 工作的基
础,但是该方法存在路标数量有限、稀疏特征点容易丢失等缺点;PTAM 是第一个使用了非线性优化的实
时 SLAM 系统,但是其存在工作场景小,跟踪容易丢失等缺陷;LSD-SLAM 利用直接法实现了半稠密地
图的构建,但其对相机内参和曝光非常敏感,在相机快速运动时容易丢失。RGBD-SLAM(RGBD-
simultaneous localization and mapping)
[5]
和 DTAM(dense tracking and mapping)
[6]
都是双目 SLAM 系
统。RGBD-SLAM 是基于特征点法的实时构建稠密的三维点云的地图系统,但是该方法提取特征较为耗
时、效率较低;DTAM 首次利用直接法实现了稠密三维地图的构建,但是其基于灰度不变的假设容易受到
光照影响而失效。
然而以上方法都是假设场景为静态的,但现实场景中会不可避免地出现动态物体对其产生干扰,比
如行人、汽车等。对此,众多学者对动态场景下的 SLAM 问题做了大量研究。比较经典的方法是利用语
义分割和几何方法检测出运动区域,然后使用静态区域的特征点进行相机位姿估计
[7-9]
。DS-SLAM(A
semantic visual SLAM towards dynamic environments)
[10]
采用语义分割结合光流的方法来减小动态物体
对系统的影响,并且构建出了语义八叉树地图。STDyn-SLAM(A stereo vision and semantic
segmentation approach for SLAM in dynamic outdoor environments)
[11]
也是采用语义分割和运动一致性
检测来剔除外点,降低动态物体的影响从而实现三维场景重建。但是剔除动态物体后场景留有的空洞依然
会对相机定位精度、地图构建产生不小的影响,如何补全空洞以及背景填充将对 SLAM 精度的提高有比
较大的意义。
为解决上述问题,本文通过语义分割网络和运动一致性检测来处理潜在的动态对象,随后逐帧对剔
除动态对象的空洞进行补全,获取被动态物体遮挡的特征信息,最后逐帧输入到 ORB-SLAM2 系统中从
而得到更为精确的位姿估计结果。
1 系统介绍
在本节,将详细介绍本文的系统框架,其中包括 4 个部分。首先给出了本文基于特征点法的空洞补
全视觉 SLAM 的结构图,其次简要地介绍了实时的语义分割方法,然后介绍运动检测一致性算法,并联
合语义分割来剔除动态特征,最后介绍空洞补全方法。
1.1 系统框架
在现实动态的环境中,精确地估计机器人和相机的位姿是机器人自主定位导航的关键因素,基于特
征点法的 ORB-SLAM2 在大多数场景下都能得到比较好的效果。因此本文方法是基于 ORB-SLAM2 的框
架进行修改,其概述如图 1 所示。
评论0
最新资源