没有合适的资源?快使用搜索试试~ 我知道了~
文献阅读-Towards Open World NeRF-Based SLAM
需积分: 0 0 下载量 88 浏览量
2023-12-18
16:03:13
上传
评论
收藏 2MB DOCX 举报
温馨提示
试读
15页
第一次论文 Towards Open World NeRF-Based SLAM 基于NeRF的开放世界
资源推荐
资源详情
资源评论
Towards Open World NeRF-Based SLAM
基于 NeRF 的 SLAM
摘要
神经辐射场(NeRFs)为同时定位和地图绘制(SLAM)任务中的地图表示
提供了多功能性和鲁棒性。本文扩展了 NICE-SLAM,这是一个最近的、最先进
的基于 NeRF 的 SLAM 算法,能够产生高质量的 NeRF 地图。然而,根据所使用
的硬件,生成这些映射所需的迭代次数通常导致 NICE-SLAM 运行速度低于实时。
此外,估计的轨迹无法与经典的 SLAM 方法竞争。最后,NICE-SLAM 需要在运
行之前定义一个覆盖所考虑环境的网格,这使得它很难扩展到以前未见过的场
景。本文旨在通过提高鲁棒性和跟踪准确性,以及将地图表示推广到处理不受
限制的环境,从而使 NICE-SLAM 更适用于开放式环境。这是通过改进测量不确
定性处理,结合运动信息,并将地图建模为具有明确的前景和背景来实现这一
目标。研究表明,这些变化能够根据可用的资源的不同,提高 85%到 97%的跟踪
准确性,同时也提高了视觉信息延伸到预定义的网格之外的环境中的映射。
关键字:NeRF; SLAM; 3D-重建; IMU
I.介绍
从 Mildenhall 等人的里程碑式论文开始。神经辐射场(NeRFs)已经在机
器视觉和机器人感知领域引起轰动。NeRF 背后的核心思想是将经典的图形渲染
技术与在图像数据上训练的多层感知器(MLP)相结合,以学习给定场景的隐
式表示。然后可以从新的视角对场景进行渲染(即视角合成)。在机器人领域,
这种方法有望解决经典的密集 SLAM 算法的缺陷。特别是,NeRF 非常适合估计
未观测区域的地图部分。它们还可以被用来从可能对用户感兴趣,但机器人还
没有直接访问过的视角查看地图,。由于它们基本上基于多层感知器(MLP),
因此 NeRF 地图也可以被训练成对地图环境条件的变化具有鲁棒性,比如光照
或一年中的时间变化。
NeRF 的原始公式使用一个大型的多层感知器(MLP),需要数小时的培训,
渲染速度缓慢,并且需要对输入摄像机姿态的精确了解。然而,自那时以来,
许多进展已经显著改善了所有这些问题。一些作者表明,在空间数据结构中编
码 NeRF 可以大大提高速度和准确性,通常在视图合成期间使用较小的 MLP 来
解码空间特征。特别是,NGLOD 提出在体积网格中使用小型的 MLP ,而
Plenoxele 使用空间八叉树并完全绕过了 MLP 的使用。通过使用空间哈希表来
进一步改进这些思想,以获得可以实时训练的 NeRFs 。BARF 和 NeRF 也表明,
先验精确姿态知识不是复现准确姿态估计和 NeRFs 所必需的。
这 些 进 步 为 在 机 器 人 应 用 中 使 用 NeRFs 来 表 示 同 时 定 位 和 地 图 构 建
(SLAM)的地图打开了大门。该领域的第一篇论文之一是 iMAP,它使用 RGB-
D 数据实时构建了基于 MLP 的 NeRF,通过减少用于生成 NeRF 的像素数量进
行下采样。NICE-SLAM 在这个框架上取得了显著进步,利用了一个关键的洞见,
即不需要在每次迭代时更新整个 NeRF 地图。通过引入基于空间体素的 NeRF,
NICE-SLAM 仅更新空间上与给定相机视图相关的 NeRF 部分。Vox-Fusion 与
NICE-SLAM 是一个类似的并行工作,但采用了动态分配的体素网格。在这项工
作开始后发布的 NeRF-SLAM 进一步发展了 NICE-SLAM 中提出的概念,并将其
扩展到单目 SLAM。
虽然 NICE-SLAM 能够生成完整且密集的地图,但与经典的 SLAM 方法相比,
在生成的姿态估计中未能表现出竞争力。另外,如果算法旨在在大环境中运行,
所产生的体积网格的维护可能变得非常昂贵。展望基于 NeRF 的 SLAM 的潜在
的开放世界中部署,当前的所有方法都利用预定义的有限体素网格,没有明确
的方法来处理远离相机的视觉信息或动态扩展操作区域。
本文开始解决这些问题,以利用基于 NeRF 的 SLAM 的特殊映射方法,而
不牺牲轨迹估计的质量或需要过多的计算资源。具体而言,本文的贡献是
在所有深度损失项中包括来自 RGB-D 图像的深度不确定性以提高局部
精度,
实现运动信息以改善相机跟踪和处理复杂的运动,以及
将 NeRF 分成有限的前景网格和背景球体,以处理任何大小的环境。
虽然本文专门处理 RGB-D 信息,但这些扩展也可以应用于其他基于 NeRF
的 SLAM 方法(例如,单目方法)。
II. 背景
一、NICE-SLAM 算法
本节简要介绍 NICE-SLAM 算法。与其前身 iMAP 和其他现代 SLAM 算法类
似,NICE-SLAM 将 SLAM 的各个阶段分为两个并行线程:一个跟踪线程用于根
据当前地图定位当前相机帧,另一个映射线程用于联合优化 NeRF 地图和一组
存储的关键帧的参数。
NICE-SLAM 使用了一系列 3 个固定大小的编码特征的体素网格,这些网格
具有不同的网格分辨率来表示地图。在评估给定 RGB-D 图像的像素时,NICE-
SLAM 使用与 NeRF[1]相同的光线投射技术,但通过在体素网格中插值样本点
(类似于[5])来评估光线,使用(较小的)MLP 对每个样本特征进行解码,并
将结果聚合成估计的像素颜色和深度。下面的子节中提供了有关映射和跟踪线
程的更多详细信息。
1)映射:映射线程负责更新映射的体素网格 NeRF 表示。它通过不断优化体
素网格特征和关键帧相关子集的存储姿势来实现这一点。与 ORB-SLAM 类似,
关键帧是根据其提供的信息增益水平选择,并由 RGB-D 图像以及相应的估计相
机姿态组成。对于每次地图更新,基于与当前帧的预测重叠来选择一组关键帧,
并与当前帧一起用于构建损失函数。
损失函数包括基于深度和颜色的组成部分。基于每个网络分辨率的深度损
失,对于映射线程中的 N 个像素来说,可以表示为
ℒ
𝑚𝑎𝑝
𝑑𝑒𝑝𝑡ℎ
=
𝑟
=
𝑓
1
𝑁
𝑁
𝑛
=
1
‖
𝑑
𝑛
―
𝑑
𝑟,𝑛
‖
1
(1)
其中,dn 是测量的像素深度,并且ˆdr,n 是针对精细(f)和粗略(c)网格
分辨率下 NeRF 预测的像素深度。颜色损失仅在精细网格分辨率下生成,并且
由下式给出:
ℒ
𝑚𝑎𝑝
𝑐𝑜𝑙𝑜𝑢𝑟
=
1
𝑁
𝑁
𝑛
=
1
‖
𝐼
𝑛
―
𝐼
𝑛
‖
1
,
(2)
剩余14页未读,继续阅读
资源评论
Lumos
- 粉丝: 0
- 资源: 1
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功