基于语义先验和深度约束的室内动态场景RGB-DSLAM算法.docx

版权申诉

45 浏览量 2022-11-03 12:05:42 上传评论 2 收藏 684KB DOCX 举报

基于语义先验和深度约束的室内动态场景RGB-D SLAM算法 SLAM（Simultaneous Localization and Mapping）技术是机器人实现自主导航的关键技术，广泛应用于AR/VR、无人机、无人驾驶等领域。然而，在动态场景中，SLAM系统存在静态环境假设，无法处理动态物体的存在，导致轨迹偏差和系统崩溃。为了解决这个问题，传统的视觉SLAM框架通常采用前/背景建模、基于多视角几何的相关约束、光流法以及自身运动的相关约束。但是，这些方法往往缺乏对环境的抽象理解，需要更多的信息和约束判断来提升对环境的感知能力。 ORB-SLAM通过对匹配的特征点对采用RANSAC方法以及鲁棒性核函数的方式来滤除外点，从而提高位姿求解的精度和鲁棒性。但这种方法的提升能力是有限的，无法应对外点过多的情况。 Kundu等人通过极线约束和FVB(flow vector bound)约束的方式检测运动物体，去除了点沿极线运动的情况，并通过递归贝叶斯滤波器完成对特征点状态的分类。CoSLAM通过计算两帧之间的重投影误差，并结合多相机观测信息实现对特征点不确定性的消除。近些年，随着算力的提升和深度学习技术的发展，使得移动机器人对于周围环境的感知能力有了大幅度的提高。通过对图像进行语义分割可以帮助机器人更好地感知周围的环境，获得更高层次的信息。 Chen等人通过YOLOv3(you only look once version3)网络实现潜在运动物体的检测，并采用对相邻帧进行投影跟踪来判断检测到的物体是否发生运动。DS-SLAM采用SegNet网络并构建稀疏光流金字塔的方式实现对动态特征点的跟踪，并通过极线约束滤除动态特征点。 Bescos等人提出的DynaSLAM通过Mask R-CNN(region-CNN)网络和多视角几何信息相结合的方式，采用区域生长算法获取图片的运动掩膜，并针对遮挡问题进行背景修复，生成静态点云地图。 Runz等人提出的MaskFusion在ElasticFusion的基础上，通过Mask R-CNN网络实现逐像素的实例级分割，并通过最小化光度误差和几何空间误差获得相对准确的相机位姿和轨迹。 Xiao等人利用相邻帧速度不变性针对SSD(single shot multibox detector)检测网络召回率低的问题提出了一种漏检补偿算法，并对动态物体进行选择性跟踪，从而保证运动物体能够被准确检出和剔除。本文的研究重点为室内动态环境下的SLAM位姿估计问题，针对传统视觉SLAM系统在动态环境下位姿估计不鲁棒、定位精度显著下降的问题，提出了一种基于语义先验的加权极线和深度约束的由粗到精的位姿估计算法，有效地提升了现有算法的定位精度和鲁棒性。

资源推荐

资源详情

资源评论

0 引言

同步定位与建图(simultaneous localization and mapping，SLAM)是机器人实现自主导航的关键技

术，该技术也被广泛地应用于 AR/VR、无人机、无人驾驶等领域中.对于绝大多数的 SLAM 系统来说都存

在静态环境假设，即假定机器人所处环境为静态，不存在动态物体.但这种假设在真实场景中往往过强，

当场景中存在动态物体时，例如行人、车辆、动物等，由于特征点分布在动态物体上，使得 SLAM 系统

在进行位姿估计时会产生很大的轨迹偏差，甚至导致系统崩溃.因此对于视觉 SLAM 系统来说，如何在动

态场景中实现鲁棒、精准的位姿估计依旧是一个极具挑战的问题.

针对动态场景下位姿估计精确度和鲁棒性下降的问题

[1]

，传统的视觉 SLAM 框架通常采用前/背景建

模、基于多视角几何的相关约束、光流法以及自身运动的相关约束，来实现对机器人所处环境的感知.这

类方法往往缺乏对环境的抽象理解，因此需要更多的信息和约束判断来提升对环境的感知能力.ORB-

SLAM

[2]

通过对匹配的特征点对采用 RANSAC(random sample consensus)方法以及鲁棒性核函数的方式

来滤除外点，从而提高位姿求解的精度和鲁棒性.但这种方法的提升能力是有限的，无法应对外点过多的

情况.Kundu 等

[3]

通过极线约束和 FVB(flow vector bound)约束的方式检测运动物体，去除了点沿极线运动

的情况，并通过递归贝叶斯滤波器完成对特征点状态的分类.CoSLAM

[4]

通过计算两帧之间的重投影误差，

并结合多相机观测信息实现对特征点不确定性的消除.文[5]通过计算场景中稠密光流并对运动轨迹进行聚

类的方法来分割运动物体，但该方法无法做到实时运行.由 Kim 等

[6]

提出的 BAMVO(background model-

based VO)算法通过构建连续深度图的非参数化背景差分模型获得场景中的静态区域，并基于背景模型构

建能量函数，用于估计相机的自身运动.但该方法需要前期假定场景静态来对背景进行初始化建模，这对

系统初始化要求较高.文[7]利用场景中点的关联性分割运动物体，该算法先对全图的特征点进行三角剖

分，构建边集的能量函数并利用图割的方法实现对运动区域的分割.Sun 等

[8]

通过 EpicFlow

[9]

算法获得稠密

光流估计图并结合平面分割算法完成对运动区域的修复和分割，并采用码本算法对前景物体建模，实现动

态模型的预测和更新.国内学者针对该问题也展开了相关的研究，高成强等

[10]

通过双高斯模型分别对前景

和背景建模，并采用 TSDF(truncated signed distance function)模型实现对稠密地图的构建，但该方法对

运动区域判断的精度不高.魏彤等

[11]

通过超像素分割结合双目图像的半全局块视差图匹配算法完成对运动

区域的分割，并通过种子点生长的方式完成对动态区域的二次搜索，但由于采用以上复杂的算法使得该系

统的运行效率较低.

近些年，随着算力的提升和深度学习技术的发展，使得移动机器人对于周围环境的感知能力有了大

幅度的提高

[12-13]

，通过对图像进行语义分割可以帮助机器人更好地感知周围的环境，获得更高层次的信

息，这也给传统 SLAM 带来了新的结合方法.Chen 等

[14]

通过 YOLOv3(you only look once version3)网络

实现潜在运动物体的检测，并采用对相邻帧进行投影跟踪来判断检测到的物体是否发生运动.DS-SLAM

[15]

采用 SegNet

[16]

网络并构建稀疏光流金字塔的方式实现对动态特征点的跟踪，并通过极线约束滤除动态特

征点，但该方法并未考虑特征点在极平面运动的情况.Bescos 等

[17]

提出的 DynaSLAM 通过 Mask R-

CNN(region-CNN)

[18]

网络和多视角几何信息相结合的方式，采用区域生长算法获取图片的运动掩膜，并

针对遮挡问题进行背景修复，生成静态点云地图，但该算法运行效率较低.提出 MaskFusion 的 Runz 等

[19]

在 ElasticFusion

[20]

的基础上，通过 Mask R-CNN 网络实现逐像素的实例级分割，并通过最小化光度误差

和几何空间误差获得相对准确的相机位姿和轨迹.Xiao 等

[21]

利用相邻帧速度不变性针对 SSD(single shot

multibox detector)

[22]

检测网络召回率低的问题提出了一种漏检补偿算法，并对动态物体进行选择性跟踪，

从而保证运动物体能够被准确检出和剔除.

本文的研究重点为室内动态环境下的 SLAM 位姿估计问题，针对传统视觉 SLAM 系统在动态环境下

位姿估计不鲁棒、定位精度显著下降的问题，提出了一种基于语义先验的加权极线和深度约束的由粗到精

的位姿估计算法，有效地提升了现有算法的定位精度和鲁棒性.本文的主要贡献总结如下：

1) 选取使用更轻量级的 Light-weight RefineNet

[23]

语义分割网络作为独立线程，和 ORB-SLAM2

[24]

框架相结合，实现了一个可以实时运行的语义 SLAM 系统.

2) 提出一种基于语义先验的加权极线和深度约束的运动一致性检测与动态特征点剔除算法，采用

“由粗到精”的位姿求解策略，有效减少了位姿估计的误差.

3) 在 TUM RGBD

[25]

公开数据集以及 BONN

[26]

复杂动态数据集上将本文方法与原始的 ORB-

SLAM2、DS-SLAM 等先进方法在高动态和低动态的场景下进行实验结果对比，评估本文所述系统的定位

精度和鲁棒性.

1 系统框架

本文针对动态场景下传统视觉 SLAM 系统对动态特征点区分不准确导致位姿估计出现偏差的问题，

提出了一种基于语义先验的加权极线和深度约束的运动一致性检测与动态特征点剔除算法，并在 ORB-

SLAM2 框架中进行实现，本文提出的动态场景 SLAM 系统结构框架图如图 1 所示.

图 1 本文系统结构框架图 Fig.1 The structure flow of the proposed system

图选项

图 1 中蓝色部分对应为原始 ORB-SLAM2 系统中增加或改进的相关模块.为了提高系统的鲁棒性，

本算法在原有 Tracking(跟踪)线程中增加了初始位姿计算、运动一致性检测和运动点剔除等处理操作，并

在原有线程的基础上加入语义分割线程用来获取图像的语义分割结果.通过对图像内物体进行语义分割操

作，可以获得潜在的运动物体的图像掩膜，从而得到由静态特征点估计出的相机初始位姿.通过本文提出

的基于语义先验的加权极线和深度约束的运动一致性检测算法，可以检测出潜在运动物体上有哪些特征点

是静态特征点，并将满足条件的特征点放回静态特征点集，重新计算帧间位姿，从而解决了非刚体(如：

人体等)局部运动的问题以及潜在运动物体可能出现的突发的不连续运动问题.最后将更新后的位姿和剔除

外点后的特征点交由后端优化处理.建图线程通过结合运动一致性检测结果、语义分割结果、位姿优化结

果完成静态点云地图的拼接与更新.

由于本文采用“由粗到精”的位姿求解策略，因此可以得到由“稳定”的静态特征点估计的相机位姿.对

于物体小范围运动或近似静止的情况，系统也不会由于过强语义先验导致静态特征点的错误剔除，从而导

致位姿计算退化的问题.因此本文提出的 SLAM 系统在动态环境下定位的精准性和鲁棒性得到了大大提高.

2 语义分割网络与运动先验

SLAM 系统的实际运行时间是由耗时最长的线程所决定的，因此要想实现系统的实时性，其前端的

语义分割网络必须能够达到实时.在保证实时的前提下，mIoU 值越高，对物体的像素级分割能力越好.DS-

SLAM 采用 Segnet 作为其语义分割部分的主网络，但实际测试表明：其网络无法达到实时要求且分割效

果不理想，错检和漏检的情况较多.其主干网络是 VGG16

[27]

，所以导致其上下文信息缺失及预测不连续.

为了平衡分割的准确性和实时性这两个因素，本部分选择 Light Weight RefineNet 作为本系统的语义分割

网络.该网络是 Lin 等

[28]

提出的 RefineNet 的轻量化版本，原始的 RefineNet 网络使用的是经典的编码器—

解码器结构，采用 3×3 的卷积云.在解码器端新作者提出采用链式残差池化(CRP)模块在较大图像区域捕

捉背景的上下文信息.Light Weight RefineNet 的整体网络结构如图 2 所示.

图 2 Light-weight RefineNet 结构示意图 Fig.2 Illustration of the Light-weight RefineNet architecture

图选项

相比于原始的 RefineNet，该网络将 RCU(残差卷积模块)部分的 3×3 卷积做了删减，并将部分 3×3

卷积更改为 1×1 的卷积操作.同时通过实验表明省略部分 RCU 模块网络的整体性能并未发生明显的下降，

为了进一步提高速度，该网络使用轻量级的 ResNet50，NASNet-Mobile，MobileNet-v2 等主干网络，结

果也证明该网络依旧能够达到非常稳健的性能表现，性能不会大幅下降.

由于 PASCAL VOC2012 数据集中共有 20 类物体，而本文实验是在室内场景中进行测试，对于每

个物体其运动可能性的先验是不同的，因此可以将这 20 类物体按照其语义对应的运动可能性进行打分，

如图 3 所示.

图 3 生活中常见物体的运动得分 Fig.3 Dynamic characteristic score of common objects in dailylife

图选项

将物体的运动可能性分为 0~10 分，0 分代表静态目标，10 分代表动态目标，越接近于 0 分则代表

物体运动可能性更小，越接近于 10 分则代表物体运动的可能性越大.针对 PASCAL VOC2012 数据集中的

类别，这里将猫、狗、自行车、人和椅子作为潜在运动物体类别，剩下的默认为静态物体类别.根据语义

分割网络可以获得本张图像的运动掩膜，即物体的运动先验.

3 “由粗到精”的位姿优化策略

通过语义分割网络获取潜在运动物体的图像掩膜后，本部分通过两步策略来“由粗到精”地求解相机

位姿.首先，通过 RANSAC

[29]

+归一化八点法

[30]

的方式求解静态背景的相对运动关系，即相机的初始“粗

剩余14页未读，继续阅读

评论收藏

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 4495
资源: 1万+

基于语义先验和深度约束的室内动态场景RGB-D SLAM算法.docx

最新资源

基于语义先验和深度约束的室内动态场景RGB-D SLAM算法.docx

基于RGB-D相机的SLAM算法研究1

基于RGB-D相机的SLAM技术研究1

TUM RGBD数据集 适用于动态场景的SLAM

动态场景下的2D+SLAM方法研究1

基于改进关键帧选取策略的快速PL-SLAM算法.docx

基于改进M-ORB的视觉SLAM直接-闭环检测算法.docx

现在开源的RGB-D SLAM有哪些_.zip

一种改进ORB特征匹配的半稠密三维重建ORB-SLAM算法.docx

动态环境下的语义SLAM算法.docx

基于RGB-D的SLAM方法改进研究1

基于RGB-D图像的SLAM问题关键技术研究1

室内移动机器人RGB-D+SLAM算法研究1

面向室内动态场景的VSLAM.docx

一种改进的EKF-SLAM算法.docx

面向高动态环境的ORB-SLAM3算法优化.docx

一种高精度紧耦合的双目VI-SLAM算法.docx

虚拟现实和增强现实之传感器融合算法：SLAM（即时定位与地图构建）：基于深度学习的SLAM算法.docx

虚拟现实和增强现实之传感器融合算法：粒子滤波：基于粒子滤波的SLAM算法.docx

Domo-SLAM:具有室内环境几何约束的 SLAM 实现

动态环境下机器人3D+SLAM算法的研究1

基于多尺度特征融合的RGB-D显著性检测.docx

《基于RGB-D传感器的3D室内模型创建》摘要

rgbdslam_v2:ROS的RGB-D SLAM

变结构的鲁棒语义SLAM算法.docx

虚拟现实和增强现实之传感器融合算法：视觉惯性融合：视觉惯性SLAM算法.docx

Dense_RGB-D_SLAM_with_multiple_cameras[1].pdf

基于卷积神经网络的RGB-D SLAM回环检测研究.pdf

ORB-SLAM2--an Open-Source SLAM System for Monocular Stereo and RGB-D Cameras

最新资源

TUM RGBD数据集适用于动态场景的SLAM