基于特征点法和直接法VSLAM的研究_特征点法资源-CSDN文库

需积分: 50 63 浏览量 2021-04-30 13:52:49 上传评论收藏 2.07MB PDF 举报

资源推荐

资源详情

资源评论

书书书

　　收稿日期：２０１８１１１０；修回日期：２０１９０１１７　　基金项目：国家自然科学基金资助项目（５１５７９２０４，５１６７９１８０）；武汉理工大学自主创新

研究基金资助项目（２０１６ＩＶＡ０６４，２０１６ＹＢ０２９）

　　作者简介：邹雄（１９８２），男，博士研究生，主要研究方向为机器视觉（ｚｘ２０００＠ｗｈｕｔ．ｅｄｕ．ｃｎ）；肖长诗（１９７４），教授，博士，主要研究方向为宽动

态成像；文元桥（１９７４），教授，博士，主要研究方向为大数据；元海文（１９８８），博士，主要研究方向为机器视觉．

基于特征点法和直接法ＶＳＬＡＭ的研究



邹　雄

１

，肖长诗

１，２

，文元桥

１，２，３

，元海文

１

（１．武汉理工大学航运学院，武汉４３００６３；２．内河航运技术湖北省重点实验室，武汉４３００６３；３．国家水运安全

工程技术研究中心，武汉４３００６３）

摘　要：基于视觉的同时定位和建图（ＶＳＬＡＭ）分为前端和后端，前端包括视觉里程计和回环检测，后端包括后端

优化和建图。按照估计相机运动的不同方式，将

ＶＳＬＡＭ分为特征点法和直接法，首先从这两个方面对前端进行综

述，阐述其中的关键技术和最新的研究进展，对比分析不同方法的优缺点；然后详细分析优化后端与滤波器后端的

区别，进一步对多个开源代码进行比较研究，分析它们的优劣势和适用场合；再讨论深度学习、语义地图和多机器

人在ＶＳＬＡＭ领域的研究进展，以及相关技术与ＶＳＬＡＭ的结合方式及前景；最后对ＶＳＬＡＭ的未来进行展望。

关键词：ＶＳＬＡＭ；视觉里程计；特征点法；直接法；非线性优化

中图分类号：ＴＰ３９１．４１　　　文献标志码：Ａ　　　文章编号：１００１３６９５（２０２０）０５００１１２８１１１

ｄｏｉ：１０．１９７３４／ｊ．ｉｓｓｎ．１００１３６９５．２０１８．１１．０７８９

ＲｅｓｅａｒｃｈｏｆｆｅａｔｕｒｅｂａｓｅｄａｎｄｄｉｒｅｃｔｍｅｔｈｏｄｓＶＳＬＡＭ

ＺｏｕＸｉｏｎｇ

１

，ＸｉａｏＣｈａｎｇｓｈｉ

１，２

，ＷｅｎＹｕａｎｑｉａｏ

１，２，３

，ＹｕａｎＨａｉｗｅｎ

１

（１．ＳｃｈｏｏｌｏｆＮａｖｉｇａｔｉｏｎ，ＷｕｈａｎＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙ，Ｗｕｈａｎ４３００６３，Ｃｈｉｎａ；２．ＨｕｂｅｉＫｅｙＬａｂｏｒａｔｏｒｙｏｆＩｎｌａｎｄＳｈｉｐｐｉｎｇＴｅｃｈｎｏｌｏｇｙ，

Ｗｕｈａｎ４３００６３，Ｃｈｉｎａ；３．ＮａｔｉｏｎａｌＥｎｇｉｎｅｅｒｉｎｇＲｅｓｅａｒｃｈＣｅｎｔｅｒｆｏｒＷａｔｅｒＴｒａｎｓｐｏｒｔＳａｆｅｔｙ，Ｗｕｈａｎ４３００６３，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：ＶＳＬＡＭｉｓｄｉｖｉｄｅｄｉｎｔｏｆｒｏｎｔｅｎｄａｎｄｂａｃｋｅｎｄ．Ｔｈｅｆｒｏｎｔｅｎｄｉｎｃｌｕｄｅｓｖｉｓｕａｌｏｄｏｍｅｔｒｙａｎｄｌｏｏｐｄｅｔｅｃｔｉｏｎ，ａｎｄ

ｔｈｅｂａｃｋｅｎｄｉｎｃｌｕｄｅｓｂａｃｋｅｎｄｏｐｔｉｍｉｚａｔｉｏｎａｎｄｍａｐｐｉｎｇ．ＴｈｉｓｐａｐｅｒｄｉｖｉｄｅｄＶＳＬＡＭｉｎｔｏｆｅａｔｕｒｅｂａｓｅｄｍｅｔｈｏｄａｎｄｄｉｒｅｃｔ

ｍｅｔｈｏｄａｃｃｏｒｄｉｎｇｔｏｄｉｆｆｅｒｅｎｔｗａｙｓｏｆｅｓｔｉｍａｔｉｎｇｃａｍｅｒａｍｏｔｉｏｎ．Ｆｉｒｓｔｌｙ

，ｉｔｓｕｍｍａｒｉｚｅｄｔｈｅｆｒｏｎｔｅｎｄｆｒｏｍｔｈｅｓｅｔｗｏａｓｐｅｃｔｓ，

ｅｌａｂｏｒａｔｅｄｔｈｅｋｅｙｔｅｃｈｎｏｌｏｇｉｅｓａｎｄｔｈｅｌａｔｅｓｔｒｅｓｅａｒｃｈｐｒｏｇｒｅｓｓ，ｃｏｍｐａｒｅｄａｎｄａｎａｌｙｚｅｄｔｈｅｄｉｆｆｅｒｅｎｔｍｅｔｈｏｄｓ．Ｔｈｅｎ，ｉｔａｎａ

ｌｙｚｅｄｔｈｅｄｉｆｆｅｒｅｎｃｅｓｂｅｔｗｅｅｎｔｈｅｏｐｔｉｍｉｚｅｂａｃｋｅｎｄａｎｄｔｈｅｆｉｌｔｅｒｂａｃｋｅｎｄｉｎｄｅｔａｉｌ

，ａｎｄｃｏｍｐａｒｅｄｔｈｅａｄｖａｎｔａｇｅｓａｎｄｄｉｓａｄ

ｖａｎｔａｇｅｓｏｆｓｅｖｅｒａｌｏｐｅｎｓｏｕｒｃｅｃｏｄｅｓａｎｄｔｈｅｉｒａｐｐｌｉｃａｂｌｅｏｃｃａｓｉｏｎｓ．Ｆｕｒｔｈｅｒ

，ｉｔｉｎｔｒｏｄｕｃｅｄｔｈｅｒｅｓｅａｒｃｈｐｒｏｇｒｅｓｓｏｆｄｅｅｐ

ｌｅａｒｎｉｎｇ，ｓｅｍａｎｔｉｃｍａｐｐｉｎｇａｎｄｍｕｌｔｉｒｏｂｏｔｓｉｎＶＳＬＡＭ，ａｎｄｄｉｓｃｕｓｓｅｄｔｈｅｃｏｍｂｉｎａｔｉｏｎｏｆｒｅｌａｔｅｄｔｅｃｈｎｏｌｏｇｉｅｓｗｉｔｈＶＳＬＡＭ

ａｎｄｉｔｓｐｒｏｓｐｅｃｔｓ．Ｆｉｎａｌｌｙ

，ｉｔｐｒｏｓｐｅｃｔｅｄｔｈｅｆｕｔｕｒｅｏｆＶＳＬＡＭ．

Ｋｅｙｗｏｒｄｓ：ＶＳＬＡＭ；ＶＯ；ｆｅａｔｕｒｅｂａｓｅｄｍｅｔｈｏｄ；ｄｉｒｅｃｔｍｅｔｈｏｄ；ｎｏｎｌｉｎｅａｒｏｐｔｉｍｉｚａｔｉｏｎ

　　同时定位与地图构建（ｓｉｍｕｌｔａｎｅｏｕｓｌｏｃａｌｉｚａｔｉｏｎａｎｄｍａｐ

ｐｉｎｇ，ＳＬＡＭ）

［１，２］

是机器人进入未知环境遇到的第一个问题，它

是指机器人搭载特定传感器，在没有环境先验信息的情况下，

在运动过程中对周围环境建模并同时估计自身的位姿

［３］

。如

果传感器主要为相机，那么就称为视觉ＳＬＡＭ（ＶＳＬＡＭ）

［４］

。

ＳＬＡＭ技术已经研究和发展了三十多年，研究人员已经做了大

量工作，近十年来，随着计算机视觉的发展，ＶＳＬＡＭ以其硬件

成本低廉、轻便、高精度等优势获得了学术界和工业界的青睐。

ＶＳＬＡＭ是利用多视图几何理论

［５］

，根据相机拍摄的图像

信息对相机进行定位并同时构建周围环境地图。按照相机的

分类，有单目、双目、ＲＧＢＤ、鱼眼、全景等。为了方便，本文只考

虑普通相机。从ＶＳＬＡＭ的提出到目前为止，经过研究人员十

多年不懈努力，ＶＳＬＡＭ框架已基本形成。如图１所示，ＶＳＬＡＭ

主要包括视觉里程计（ｖｉｓｕａｌｏｄｏｍｅｔｒｙ，ＶＯ）、后端优化、回环检

测、建图。其中ＶＯ研究图像帧间变换关系完成实时的位姿跟

踪，对输入的图像进行处理，计算姿态变化，得到相机间的运动

关系。但是随着时间的累计，误差会累积，这是由于仅仅估计

两个图像间的运动造成的。后端主要是使用优化方法，减小整

个框架误差（包括相机位姿和空间地图点）。回环检测又称为

闭环检测，主要是利用图像间的相似性来判断是否到达过先前

的位置，以此来消除累计误差，得到全局一致性轨迹和地图。

建图是根据估计的轨迹建立与任务要求对应的地图。

现在比较通常的惯例是把

ＶＳＬＡＭ分为前端和后端，前端

为视觉里程计和回环检测，相当于是对图像数据进行关联；后

端是对前端输出的结果进行优化，利用滤波或非线性优化理论

得到最优的位姿估计和全局一致性地图。

１　前端

１１　视觉里程计

前端中的视觉里程计是通过采集的图像得到相机间的运

动估计，视觉里程计问题可由图２进行描述（双目立体视觉里

程计）。视觉系统在运动过程中，在不同时刻获取了环境的图

像，而且相邻时刻的图像必须有足够的重叠区域，则视觉系统

的相对旋转和平移运动可被估算出来；然后将每两个相邻时刻

之间视觉系统的运动串联起来，可以得到累计的视觉系统相对

于参考坐标系的旋转和平移。如图

２所示，视觉里程计的任务

就是已知ｋ＝０的初始位置Ｃ

０

（可以根据情况自己定义），求相

机的运动轨迹

Ｃ

０：ｎ

＝｛Ｃ

０

，…，Ｃ

ｎ

｝，即当前的位置Ｃ

ｋ

通过Ｔ

ｋ

和

上一时刻的位置Ｃ

ｋ－１

来计算，公式为Ｃ

ｋ

＝Ｃ

ｋ－１

×Ｔ

ｋ

。其中：Ｔ

ｋ

为Ｋ和Ｋ＋１时刻的相机相对位置变化，可根据相应时刻采集

的图像计算出来，从而恢复相机的运动轨迹。

视觉里程计可分为特征点法和直接法，如图

３所示。特征

点法主要是根据图像上的特征匹配关系得到相邻帧间的相机

第３７卷第５期

２０２０年５月　

计算机应用研究

ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ

Ｖｏｌ．３７Ｎｏ．５

Ｍａｙ２０２０

运动估计，它需要对特征进行提取和匹配，然后根据匹配特征

构建重投影误差函数，并将其最小化从而得到相机的相对运

动；直接法是假设两帧图像中的匹配像素的灰度值不变，构建

光度误差函数，也将其最小化求解帧间的相机运动。

１１１　特征点法

特征点法的原理是通过提取和匹配相邻图像的特征点估

计该帧间对应的相机相对运动。特征点法的步骤包括特征检

测、匹配、运动估计和优化，如图４所示。

特征点可以称为兴趣点、显著点、关键点等。以点的位置

来表示的点特征是一种最简单的图像特征。特征点可以分为

关键点和描述子两部分。事实上，特征点是一个具有一定特征

的局部区域的位置标志，称其为点，将其抽象为一个位置概念，

以便于确定两幅图像中同一个位置点的对应关系，所以在特征

匹配过程中是以该特征点为中心，将邻域的局部特征进行匹

配；也就是说在进行特征匹配时首先要为这些特征点建立特征

描述，这种特征描述通常称之为描述子。一般希望特征点在不

同时刻、不同位置都能保持稳定，一个好的特征点应该拥有可

重复性、可区别性、高效性。

ＶＳＬＡＭ中常用的特征检测算法主要有ＳＩＦＴ

［６，７］

、

ＳＵＲＦ

［８］

、ＦＡＳＴ

［９］

、ＯＲＢ

［１０］

等，每种算法都有自己的优劣

［１１］

。

其中，尺度不变特征转换（ｓｃａｌｅｉｎｖａｒｉａｎｔｆｅａｔｕｒｅｔｒａｎｓｆｏｒｍ，

ＳＩＦＴ）首先利用差分高斯（ＤｏＧ）算子对图像的上下尺度进行卷

积运算，然后在尺度和空间上获取输出的局部最小值或最大

值；ＳＵＲＦ建立在ＳＩＦＴ上，也叫做ＳＩＦＴ加速版，它使用盒式滤

波器来近似高斯滤波器，充分考虑了在图像变换过程中出现的

光照、尺度、旋转等变化。从这点上看非常适合ＳＬＡＭ，但随之

而来的是极大的计算量。到目前为止，如果实时地利用ＳＩＦＴ

特征进行ＶＳＬＡＭ，还需要ＧＰＵ加速。ＦＡＳＴ是一种角点，主要

检测局部像素灰度变化明显的地方。如果候选关键点像素灰

度值与邻域的像素灰度值差别过大（比如邻域采用半径为３

的圆上连续像素点超过９），那么它即为角点。ＦＡＳＴ的特点是

速度快，但不具备尺度和旋转的不变性。

ＯＲＢ对原始的ＦＡＳＴ

算法进行了改进，对原始的ＦＡＳＴ角点分别计算Ｈａｒｒｉｓ响应

值，然后排序和选取较大响应值的角点；通过构建图像金字塔

降采样，并在每一层上检测角点实现尺度不变特性；以图像块

的灰度质心和几何中心得到特征点的方向。不仅如此，ＯＲＢ

在提取ＦＡＳＴ角点后还使用了ＢＲＩＥＦ特征描述。ＢＲＩＥＦ

［１２］

是

一种二进制编码的特征描述子，它使用从关键点周围的块中采

样的成对亮度比较。由于使用二进制表达和存储，所以速度非

常快。原始的ＢＲＩＥＦ描述子没有考虑方向，而ＯＲＢ在提取

ＦＡＳＴ角点时考虑了尺度和方向，所以ＯＲＢ既具备了ＦＡＳＴ和

ＢＲＩＥＦ速度快的特点，又具备了较好的尺度和旋转不变性。

早期特征点的匹配多采取跟踪方式，比如检测关键点（不

需要描述子），采用光流跟踪得到关键点的匹配。通常为了排

除误跟踪，可以采用一致性检测。这种方式适合相邻帧之间的

运动量和外观变化较小的情况。

如果两帧之间的运动量和外观变化较大，需要计算两帧之

间的特征点和描述子，比较描述子间的距离（如汉明距离）。

由于计算量的关系，很少采用穷尽的方式进行匹配，多采用恒

速等模型在预期区域中搜索潜在的对应关系。如果是双目匹

配或者深度滤波器中计算每个像素的深度，通常采用极线搜索

和采用归一化互相关（ｎｏｒｍａｌｉｚｅｄｃｒｏｓｓｃｏｒｒｅｌａｔｉｏｎ，ＮＣＣ）或绝对

误差和（

ｓｕｍｏｆｓｑｕａｒｅｄｄｉｆｆｅｒｅｎｃｅｓ，ＳＳＤ）找到匹配点。对于双

目来说，为了保证准确匹配，可以采用环形检测对左右和前后

总共四张图像验证是否形成匹配环

［１３］

。运动估计就是根据特

征点的匹配情况恢复出两帧间的相机运动。针对特征点匹配

的情况，运动估计分为２Ｄ２Ｄ、３Ｄ２Ｄ、３Ｄ３Ｄ（图４）。其求解方

法可以分为几何方法和优化方法。几何方法主要是根据对极

几何理论得到两帧间的对应关系；优化方法主要是构建两帧间

的重投影误差并使其最小，从而得到帧间变换。

ａ）２Ｄ２Ｄ主要是针对单目相机的初始化过程，在不知道空

间中３Ｄ点的情况下（如未进行初始化）通过两帧间匹配的特

征点进行帧间相机运动估计，如图５所示。它涉及到对极几何

中本质矩阵（Ｅ）或单应性矩阵（Ｈ）的相关理论及其分解，通常

在图像的特征匹配中难免会有“外点”，可以采用随机采样一

致（ＲＡＮＳＡＣ）得到最大“内点”子集的Ｅ或Ｈ。对极几何视图

如图６所示，Ｐ

１

、Ｐ

２

和ｔ共面得到Ｐ

Ｔ

２

·（ｔ×Ｐ′

１

）＝０，进一步得

到

Ｐ

Ｔ

２

ＥＰ

１

＝０，其中Ｅ＝［ｔ］

Ｒ。针对Ｅ的分解，经典的八点法

是当做线性方程来解

［１４］

，然后把结果投影到Ｅ所在的流形上

（利用Ｅ的内在性质

［５］

）；另一方面，Ｅ有五个自由度最小可以

通过

５点法求解

［１５］

。有文献提到利用八个点求Ｅ得到的解更

精确。实际中这些影响可以忽略，因为通常将该结果作为初值，

随后通过优化求解。针对单应性矩阵Ｈ（八个自由度），它描述

的是两个平面间的运动关系，当特征点都集中在同一个平面上

（如无人机俯拍地面），则通过单应性来进行运动估计。Ｈ可以

用四组（每三组不共线）匹配特征点采用直接线性变换法（ＤＬＴ）

算出

［５］

。采用哪种方案求出相机间的运动估计可根据各个不同

的应用场合，例如ＳＶＯ采用分解Ｈ主要用于无人机的俯拍，

ＯＲＢＳＬＡＭ同时求解Ｅ和Ｈ进行打分，选择分数高的方案。

ｂ）３Ｄ２Ｄ就是ＰｎＰ（ｐｅｒｓｐｅｃｔｉｖｅｎｐｏｉｎｔ）。求解３Ｄ到２Ｄ

点对运动的方法，描述的是当知道Ｎ个３Ｄ空间点及其投影位

置时（例如单目，已经初始化完毕，知道特征点的３Ｄ位置）如

何估计相机位姿。当然双目或者深度相机可以直接使用ＰｎＰ。

对它的求解有

ＤＬＴ、Ｐ３Ｐ

［１６］

、ＥＰｎＰ

［１７］

、ＵＰｎＰ

［１８］

。现在常用的

做法是先采用Ｐ３Ｐ得到初始解，然后构建重投影误差，使之最

小化。如图

７所示，Ｐ

１

和Ｐ

２

是空间点Ｐ＝［Ｘ，Ｙ，Ｚ］

Ｔ

的投影，

在初始解中Ｐ的投影为Ｐ′

２

，Ｐ′

２

＝［

ｕ

２

ｖ

２

］

Ｔ

＝（１／Ｚ

２

）ＫＴ

ｋ

Ｐ＝

·２８２１·

计算机应用研究第３７卷

剩余10页未读，继续阅读

评论收藏

内容反馈

weixin_38737213

粉丝: 1
资源: 977

基于特征点法和直接法VSLAM的研究

基于点线综合特征的双目视觉SLAM方法.pdf_vslam_slam_双目slam_

基于点线特征和边缘特征的单目视觉里程计算法.docx

最新VSLAM比较汇总

面向室内动态场景的VSLAM.docx

一种改进ORB特征匹配的半稠密三维重建ORB-SLAM算法.docx

数据融合matlab代码-VO-SLAM-Review:VO-SLAM-评论

matlab代码检查工具-VO-SLAM-Review:SLAM主要分为两个部分：前端和后端。前端是可视里程表（VO），它根据相邻图像的信息粗

视觉SLAM十四讲PPT

directBA.zip

三种方法提取特征点

一种高精度紧耦合的双目VI-SLAM算法.docx

KITTI_odometry_evaluation_tool评估工具

Qt 5实现串口调试助手 （源工程文件、0积分下载）

【SystemVerilog】路科验证V2学习笔记（全600页）.pdf

AutoSAR标准协议4.2.2

光伏-储能并网系统仿真.rar

XCP协议的规范文档

GD32替换STM32注意事项.pdf

NPPJSONViewer.zip

蓝牙BLE协议中文版.pdf

CANoe通过CAPL脚本实现自动测试

电路分析基础第二版PDF电子书免费下载

qt样式表一键生成（花狗Fdog）

Tangent免费.rar

CMSIS-DAP使用说明及驱动.rar

VS2015安装证书，JavaScript_ProjectSystem.msi，JavaScript_LanguageService.msi

BaiduOCR.zip

Elsevier期刊word模板.zip

最新资源

Qt 5实现串口调试助手（源工程文件、0积分下载）