摘要
ORB-SLAM3(simultaneous localization and mapping)是当前最优秀的视觉 SLAM 算法之一,
然而其基于静态环境的假设导致算法在高动态环境下精度不佳甚至定位失败。针对这一问题,提出
一种结合光流和实例分割的动态特征点去除方法,以提高 ORB-SLAM3 在高动态环境下的定位精
度。并且在 TUM 数据集上进行了 RGB-D 相机模式和单目相机模式的实验,实验结果表明了该方
法的有效性。
Abstract
Currently, ORB-SLAM3(simultaneous localization and mapping) is one of the best
visual SLAM methods. It assumes that scene is static, which leads to poor accuracy
and even localization failure in highly dynamic scenarios. To address this problem, a
dynamic feature point removing method combining optical flow information with an
instance segmentation network is proposed to improve the location accuracy of
ORB-SLAM3 in highly dynamic scenarios. We conduct experiments on the RGB-D
images and the monocular images in the public TUM dataset. The experimental
results demonstrate the effectiveness of the proposed method in highly dynamic
scenarios.
译
关键词
视觉同步定位与建图(simultaneous localization and mapping,SLAM); ORB-SLAM3; 动态
场景; Mask R-CNN; 光流
Keywords
visual SLAM; ORB-SLAM3; dynamic scene; Mask R-CNN; optical flow
译
目前,同步定位与建图(simultaneous localization and mapping,SLAM)能够利用机载传感器
实时采集的数据在移动过程中构建周围环境的地图并确定自身位置,是智能移动机器人、增强现实
和自动驾驶领域的关键技术之一,受到企业、高校和研究所的广泛关注
[1]
。根据传感器类型,可将
其分为激光 SLAM 和视觉 SLAM 两大类。其中,以相机为主要传感器的视觉 SLAM 技术具有成本
低、获取的图像信息丰富等优势,成为当前的研究热点
[2]
。Campos 等
[3]
提出了 ORB-SLAM3,这
被认为是最优秀的视觉 SLAM 算法之一。它是第一个基于特征的紧耦合视觉惯性 SLAM 系统,能
够使用单目相机、双目相机、RGB-D 相机实现视觉 SLAM 和视觉惯性 SLAM。该系统在室内和室
外环境中都能够实时稳定运行,比以前方法精确 2~5 倍。
然而,ORB-SLAM3 基于静态环境的假设限制了其应用场景。虽然随机抽样一致(random sample
consensus,RANSAC)算法能将动态物体上的特征点识别为离群值,并将其过滤,但仅限于动态
元素较少的低动态场景。在高动态场景下,动态物体占图像面积较大时,ORB-SLAM3 提取的特征
点可能大量分布在动态物体上,导致其精度大幅降低,估计的轨迹不可用。因此,本文基于 ORB-