动态环境下的语义地图构建
摘 要:三维语义地图在移动机器人导航、路径规划等任务中有着关键的作用,如何实时地构建三维语
义地图尤为重要。当前同时定位和地图构建(SLAM)算法在一些场景下能够达到良好的性能,但是在动态环
境下如何处理动态物体获得较高的定位精度,以及理解周围场景中存在物体及其位置信息等问题仍然没有很
好的解决。本文提出了一种可在动态环境下构建语义地图的算法。本算法在 ORB-SLAM2 上进行改进,在
跟踪线程中加入动静点检测算法,剔除检测为动态的特征点,提高了动态环境下的定位精度,添加目标检测
线程对关键图像进行目标检测,在地图构建线程中加入 O c to-Map 稠密地图构建,同时根据检测结果构建 3D
目标数据库,在数据集和实验室中对算法进行测试,结果表明算法具有较高的精度和实时性。
关键词:语义地图构建;动态点检测;目标检测;视觉 SLAM
中图分类号:TP249 文献标识码:A
Semantic Mapping in Dynamic Environments
Abstract: Three-dimensional semantic map plays a key role in mobile robot navigation, path planning and other
tasks. So how to construct 3D semantic maps in real time is especially important. At present, simultaneous localization
and mapping (SLAM) algorithms can achieve good performance in some scenarios. However, how to deal with dynamic
objects to obtain high positioning accuracy in the dynamic environment, and understand the existence of objects and their
location information in the surrounding scenes are still not well solved. This paper presents an algorithm for constructing
semantic maps in dynamic environments. This algorithm is improved on ORB-SLAM2. The dynamic and static point
detection algorithm is added to the tracking thread to eliminate the detection as dynamic feature points, which improves
the positioning accuracy in dynamic environment. Object detection threads are added to detect key images. Octo-Map
dense map is added to the mapping threads. At the same time, 3D object database is constructed according to the 2D
detection results. The algorithm is tested in the laboratory and dataset, and the results show that the algorithm has high
accuracy and real-time performance.
Keywords: Semantic Mapping; Dynamic Point Detection; Object Detection; VSLAM
1 引言(Introduction)
机器人技术代表了当今世界高新技术的前进方
向。机器人对周围环境的感知、建模和理解的能力
是决定其智能水平的关键因素,因为只有机器人对
自身和周围环境正确建模后,机器人才可能完成如
导航、抓取等任务。在实际研究中,机器人常常装
载着相机、GPS 、激光雷达、超声波、IMU 等传感
器。这些装置为机器人提供最原始的数据,不过还
不能为机器人提供更加结构化、层次化的信息,需
要经过多种算法的处理才能获取较好的结果。
在移动机器人技术领域,地图构建技术是感知、
建模、规划与理解的基础与核心。机器人同时定位
与 地 图 构 建 技 术 (Synchronous Localization and
Mapping)解决的就是如何利用传感器的数据进行自
定位,与此同时构建出周围环境的地图。视觉 SLAM
是以相机为主要外部传感器的 SLAM 系统,有时还
会结合其他传感器的信息,如 IMU 信息,可应用于
机器人、无人驾驶和增强现实(AR)等领域,是近年
来热门的研究方向。目前大多数的视觉 SLAM 算法
是在静态场景这一假设下运行的,获得的信息中不
包含高层的语义信息,仅仅是一些几何点信息。通
过 SLAM 算法机器人可以精确定位,但无法对环境
中的物体进行识别和建模,这将导致机器人无法根
据环境中的高层语义信息进行智能操作。随着室内
外移动机器人技术、自动驾驶和增强现实技术等研
究及应用的发展,室内外场景中语义理解能力的重
要性愈加显著。
近几年,深度学习技术快速发展,为解决上述
问题提供了新的思路。考虑快速性与实时性而提出
的 SSD
[4]
目标检测框架在保证检测精度的同时提高
了速度。为了提高神经网络的运行速度,以 Mobile
Net
[7-8]
为代表的小型化网络被提出,这些网络通过
巧妙设计网络结构、简化卷积核等方法使得网络的
运算量降低。ORB-SLAM2
[1-2]
算法是近年来基于特
征点法的视觉 SLAM 算法中较为出色的一个算法框
架。输入视觉 SLAM 算法的图像信息流中常常包含
了各种物体,结合目标检测网络的语义信息提取优
势与 SLAM 算法获取的精确的几何信息,使得机器
人可以从周围环境中获取包含更加结构化、语义化、
层次化的地图信息。近年来有一些研究根据目标检
测结果的先验信息和动态点检测算法的测量信息来
剔除相机视野中的动态点来提高算法定位精度。
本文以复杂的动态的室内实验室环境为背景,
探索动态环境下构建语义地图的方法,结合基于
RGBD 相机的视觉 SLAM 系统和基于回归预测的
多尺度预测的深度卷积神经网络 SSD 框架,设计算
法剔除动态物体点、融合位姿信息和语义信息以及
构建语义目标数据库,实时构建高层次语义地图。
本文所提出的方法在动态环境下语义地图构建等方
面具有一定的参考价值,可以帮助机器人实现更为
智能的导航任务。