— 我们为可操作的空间感知提供了一个统一的表示:3D 动态场景图。 场景图是有向图,其中节点表示场景中的实体(例如,对象、墙壁、房间),而边表示节点之间的关系(例如,包含、邻接)。 动态场景图 (DSG) 扩展了这一概念,以表示具有移动代理(例如,人类、机器人)的动态场景,并包含支持规划和决策的可操作信息(例如,时空关系、不同级别的拓扑 抽象)。
我们的第二个贡献是提供第一个全自动空间感知引擎 (SPIN),以从视觉惯性数据构建 DSG。 我们整合了用于物体和人类检测以及姿势估计的最先进技术,并描述了如何在拥挤的场景中稳健地推断物体、机器人和人类节点。
据我们所知,这是第一篇协调视觉惯性 SLAM 和密集人体网格跟踪的论文。 此外,我们提供算法来获得室内环境(例如,地点、结构、房间)及其关系的分层表示。 我们的第三个贡献是在逼真的基于 Unity 的模拟器中展示所提出的空间感知引擎,我们在其中评估其鲁棒性和表现力。
最后,我们讨论了我们的提议对现代机器人应用的影响。