没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
增强现实是一种在现实场景中无缝地融入虚拟物体或信息的技术, 能够比传统的文字、图像和视频等方式 更高效、直观地呈现信息,有着非常广泛的应用. 同时定位与地图构建作为增强现实的关键基础技术, 可以用来在未 知环境中定位自身方位并同时构建环境三维地图, 从而保证叠加的虚拟物体与现实场景在几何上的一致性. 文中首 先简述基于视觉的同时定位与地图构建的基本原理; 然后介绍几个代表性的基于单目视觉的同时定位与地图构建方 法并做深入分析和比较; 最后讨论近年来研究热点和发展趋势, 并做总结和展望.
资源推荐
资源详情
资源评论
第 28 卷 第 6 期 计算机辅助设计与图形学学报 Vol. 28 No.6
2016 年 6 月
Journal of Computer-Aided Design & Computer Graphics Jun. 2016
收稿日期: 2016-04-30; 修回日期: 2016-05-11. 基金项目: 国家科技支撑计划(2012BAH35B02); 国家自然科学基金(61232011,
61272048); 中央高校基本科研业务费专项资金(2015XZZX005-05); 全国优秀博士学位论文作者专项资金资助项目(201245). 刘浩敏
(1987—), 男, 博士研究生, 主要研究方向为运动推断结构、同时定位与地图构建; 章国锋(1981—), 男, 博士, 副教授, 博士生导师,
论文通讯作者, 主要研究方向为三维视觉、增强现实、计算机图形学等; 鲍虎军(1966—), 男, 博士, 教授, 博士生导师, CCF 常务理
事, 主要研究方向为计算机图形学、三维视觉、虚拟现实、增强现实等.
基于单目视觉的同时定位与地图构建方法综述
刘浩敏
1)
,
章国锋
1,2)*
,
鲍虎军
1)
1)
(浙江大学 CAD&CG 国家重点实验室 杭州 310058)
2)
(浙江大学工业信息物理融合系统协同创新中心 杭州 310058)
(zhangguofeng@cad.zju.edu.cn)
摘 要: 增强现实是一种在现实场景中无缝地融入虚拟物体或信息的技术, 能够比传统的文字、图像和视频等方式
更高效、直观地呈现信息,有着非常广泛的应用. 同时定位与地图构建作为增强现实的关键基础技术, 可以用来在未
知环境中定位自身方位并同时构建环境三维地图, 从而保证叠加的虚拟物体与现实场景在几何上的一致性. 文中首
先简述基于视觉的同时定位与地图构建的基本原理; 然后介绍几个代表性的基于单目视觉的同时定位与地图构建方
法并做深入分析和比较; 最后讨论近年来研究热点和发展趋势, 并做总结和展望.
关键词:增强现实; 同时定位与地图构建; 运动推断结构; 多视图几何; 摄像机跟踪
中图法分类号:TP391.41
A Survey of Monocular Simultaneous Localization and Mapping
Liu Haomin
1)
, Zhang Guofeng
1,2)*
, and Bao Hujun
1)
1)
(State Key Laboratory of CAD&CG, Zhejiang University, Hangzhou 310058)
2)
(Collaborative Innovation Center for industrial Cyber-Physical System, Zhejiang University, Hangzhou 310058)
Abstract: Augmented reality (AR) is a technique that allows to seamlessly composite virtual objects or informa-
tion into real scene. Compared to traditional text, images and videos, AR is a more effective and intuitive way for
information presentation and has wide applications. Simultaneous localization and mapping (SLAM) is a key
fundamental technique for augmented reality, which provides the ability of self-localization in an unknown envi-
ronment and mapping the 3D environment simultaneously. The localization and mapping enables fusion of virtual
objects and real scenes in a geometrically consistent way. In this paper, we describe the basic principles of Visual
SLAM, and introduce some state-of-the-art monocular SLAM methods with deep analysis and comparison. Fi-
nally, we discuss some research tendency in recent years and make conclusions.
Key words: augmented reality; simultaneous localization and mapping; structure-from-motion; multi-view
geometry; camera tracking
对于很多应用来说, 传统的信息表达方式(如
文字、图片、视频)和呈现方式(如二维浏览)显得低
效、不够直观. 增强现实是一种在现实场景中无缝
地融入虚拟物体或信息的技术, 它能比传统方式
更为高效、直观地表达和呈现信息,因而有着非常
广阔的应用前景, 近年来已经在各种应用中崭露
头角. 例如, 利用增强现实技术可以允许用户拿起
智能手机或平板电脑即可观察所选中的家具在
856 计算机辅助设计与图形学学报 第 28 卷
自己房间里的摆放和搭配效果, 比起只有图片或
文字信息的展示方式, 更为高效、直观, 无需想象.
增强现实需要实时定位设备在环境中的方位.
定位方案虽然已经有很多种, 但多数方案要么在
实际应用中存在诸多局限, 要么代价太高难以普
及. 比如, GPS 无法在室内及遮挡严重的室外环境
中使用, 且定位精度较低; 高精度的惯导系统成本
太高且难以民用; 基于无线信号的定位方案需要
事先布置使用场景等. 基于视觉的同时定位与地图
构建技术(visual simultaneous localization and mapping,
V-SLAM) 以其硬件成本低廉(一个普通摄像头即
可)、小场景范围内精度较高、无需预先布置场景
等优势, 成为目前一个较常采用的定位方案. 尤其
在增强现实应用中, 由于虚拟物体的叠加目标通
常为图像/视频, 因此基于图像/视频等视觉信息的
V-SLAM 方案, 对于确保虚实融合结果在几何上
保持一致有着天然的优势.
同时定位与地图构建(simultaneous localization
and mapping, SLAM)最早源于机器人领域
[1-4]
, 其
目标是在一个未知的环境中实时重建环境的三维
结构并同时对机器人自身进行定位. 在计算机视觉
领域, 与之类似的技术是运动推断结构(structure-
from-motion, SFM)
[5]
. 早期的 SFM 技术一般是离
线处理的, 后来随着技术的发展出现了实时的
SFM 技术, 可以归入到 V-SLAM. SLAM 技术已经
发展了几十年, 研究人员已经做了大量的工作, 而
且也出现了一些关于 SLAM 的综述和教程
[3-4,6-9]
.
但是这些综述性文献大多偏向于介绍基于滤波的
SLAM 技术, 或者只是对各类 SLAM 方法、原理和
常用模块进行介绍, 没有深入系统地对各类 SLAM
方法进行性能分析和比较; 而且多数文献的发表时
间也比较早(其中最经典的综述性文献是 Durrant-
Whyte 等
[3-4]
于 2006 年撰写的关于 SLAM 的教程,
距今已经 10 年了), 不能反映最新的 SLAM 技术发
展潮流. 不同于这些文献, 本文主要专注于对基于
单目视觉的 SLAM 方法的分析和讨论, 系统地介
绍和分析目前 3 类主流单目 V-SLAM 方法的优缺
点, 并对它们的代表性系统进行性能分析和比较.
另外, 本文也介绍和讨论了 V-SLAM 技术的最新
研究热点和发展趋势, 并进行总结和展望.
1 V-SLAM 的基本原理
V-SLAM 技术可以根据拍摄的视频信息推断
出摄像头在未知环境中的方位, 并同时构建环境
地图, 其基本原理为多视图几何原理
[5]
, 图 1 所示
为一个示意图. 其中只用单目摄像头的 V-SLAM
技术又称为单目 V-SLAM, 也是本文要重点分析
讨论的. V-SLAM 的目标为同时恢复出每帧图像对
应的相机运动参数
1 m
CC , 及场景三维结构
1 n
X
X . 每个相机运动参数
i
C 包含了相机的位
置和朝向信息, 通常表达为一个 3×3 的旋转矩阵
i
R 和一个三维位置变量
i
p .
i
R ,
i
p 将一个世界坐
标系下的三维点
j
X
变换至
i
C 的局部坐标系
T
(,,) ( )
ij ij ij i j i
X
YZ RX p (1)
进而投影至图像中
T
(/ ,/ )
ij xijijxyijijy
fcfc hXZ YZ (2)
其中,
x
f
,
y
f
分别为沿图像 x, y 轴的图像焦距,
(,)
x
y
cc
为镜头光心在图像中的位置, 通常假设这
些参数已事先标定且保持不变. 由式(1)(2)可知,
三维点在图像中的投影位置
ij
h
可表示为一个关于
i
C 和
j
X
的函数, 记为
(, )
ij i j
hChX
(3)
V-SLAM 算法需要将不同图像中对应于相同
场景点的图像点匹配起来(如图 1 中, 将对应于
1
X
的图像点
11
x ,
21
x ,
31
x 进行匹配). 通过求解优化如下
目标函数
11
,
11
ˆ
argmin ( , )
ij
mn
mn
ij ij
CC
ij
hC
XX
Xx
(4)
得到一组最优的
1 m
CC ,
1 n
X
X , 使得所有
j
X
在
i
C 图像中的投影位置
ij
h
与观测到的图像点位置
ij
x
尽可能靠近. 这里假设图像观测点符合高斯分
布
ˆ
~(, )
ij ij ij
Nxx
,
T1
ee e. 求解目标函数
(4)的过程也称为集束调整(bundle adjustment, BA)
[10]
,
图 1 多视图几何原理
第 6 期 刘浩敏, 等: 基于单目视觉的同时定位与地图构建方法综述 857
可利用线性方程的稀疏结构高效求解.
由于 V-SLAM 需要进行图像特征的匹配, 因
此其稳定性严重依赖于场景特征的丰富程度. 例
如, 相机拍摄一面纯色的白墙, 那么仅从图像无法
恢复出相机的运动. 加入其他传感器信息能很大
程度地解决这一问题. 目前最常用的是在 V-S LAM 中
结合 IMU 数据(加速度、角速度). 这样的 SLAM 称
为 VIN(visual-aided inertial navigation)或 VI-SLAM
(visual-inertial SLAM). 将相邻 2 帧
1
(, )
ii
CC
间的所有
IMU 数据标记为集合
i
Z
1
{}
i
n
zz
, VI-SLAM 方
法
[11-13]
一般求解优化如下目标函数
11
,
11
1
1
1
ˆ
argmin ( , )
( , )
ij
mn
i
mn
ij ij
CC
ij
m
ii i
i
hC
fCZ C
XX
Xx
(5)
与目标函数(4)相比, VI-SLAM 引入了一个运动方
程, 其中
(,)
ii
f
CZ 为
i
Z
作用于
i
C 后的运动参数,
i
为运动方程的协方差矩阵. 常见的运动方程有
连续时间系统(Continuous Time System)
[14]
、预积分
(Preintegration)方程
[15]
等. 通常, VI-SLAM 需要求
解每一时刻的运动速度
i
v 和 IMU 数据的偏移量
i
b ,
即
(,,,)
iiiii
C Rpvb.
类似的原理同样可应用于其他传感器数据,
如引入GPS数据
G
i
p , 只需在能量函数中再引入一项
11
,
11
11
1
11
ˆ
argmin ( , )
ˆ
( , )
ij
mn
i
i
mn
ij ij
CC
ij
mm
G
ii i i i
ii
hC
fCZ C
XX
Xx
pp
(6)
这里假设 GPS 观测值符合高斯分布
ˆ
~(, )
GG
iii
Npp Λ .
2 代表性单目 V-SLAM 系统
目前, 国际上主流的 V-SLAM 方法大致可以
分为 3 类: 基于滤波器、基于关键帧 BA 和基于直
接跟踪的 V-SLAM. 本节通过几个代表性的单目
V-SLAM 系统介绍这些方法, 并分析其优劣.
2.1 基于滤波器的 V-SLAM
基于滤波器的 V-SLAM 的基本思想如下: 将
每一时刻
t 的系统状态用一个高斯概率模型表达,
ˆ
~(,)
ttt
NxxP,
ˆ
t
x 为当前时刻系统状态估计值,
t
P 为该估计值误差的协方差矩阵. 系统状态由一
个滤波器不断更新. 不同的状态设计和滤波方式
衍生出不同的SLAM系统. 本节介绍 2 款基于滤波
器的 SLAM 系统 MonoSLAM
[16]
和 MSCKF
[17]
.
MonoSLAM 是由 Davison 等发明的第一个成
功基于单目摄像头的纯视觉 SLAM 系统. MonoSLAM
的状态
t
x 由 t 时刻的相机运动参数
t
C 和所有三维
点位置
1 n
X
X 构成, 每一时刻的相机方位均带有
一个概率偏差(如图 2a 所示); 同样, 每个三维点位
置也带有一个概率偏差, 可以用一个三维椭球表
示, 椭球中心为估计值, 椭球体积表明不确定程度
(如图 2b 所示); 不同场景点之间, 以及场景点和
t
C 之间均有概率关联. 在此概率模型下, 场景点
投影至图像的形状为一个投影概率椭圆(如图 2c
a. 相机运动模型
b. 场景点概率分布
c. 主动式特征匹配
图 2 MonoSLAM 的相机运动模型和三维点跟踪
[16]
剩余14页未读,继续阅读
资源评论
huminer
- 粉丝: 0
- 资源: 10
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功