Ego-Body Pose Estimation via Ego-Head Pose Estimation译文

preview
需积分: 0 8 下载量 35 浏览量 更新于2023-07-15 收藏 1.25MB PDF 举报
《通过自我-头部姿势估计进行自我-身体姿势估计》 摘要:从以自我为中心的视频序列中估计人类的三维运动在 理解人类行为方面起着关键作用,并在VR/AR中有着各 种应用。然而,天真地学习以自我为中心的视频和人类 运动之间的映射是具有挑战性的,因为用户的身体往往 无法被置于用户头部的前置摄像头所观察到。此外,收 集大规模、高质量的数据集,包括配对的以自我为中心 的视频和三维人体运动,需要精确的运动捕捉设备,而 这些设备往往将视频中的各种场景限制在类似实验室的 环境中。为了消除对成对的自我中心视频和人体运动的 需求,我们提出了一种新的方法,即通过自我-头部姿 势估计的自我身体姿势估计(EgoEgo),该方法将问 题分解为两个阶段,由头部运动作为中间代表来连接。 EgoEgo首先整合了SLAM和一种学习方法,以估计准确 †表示同等贡献。 《通过自我-头部姿势估计进行自我-身体姿势估计》这篇论文是CVPR2023会议的一篇文章,探讨了从以自我为中心的视频序列中估计三维人体运动的技术。这项研究对于理解和开发虚拟现实(VR)和增强现实(AR)应用至关重要,因为它涉及到实时追踪和解析用户的行为。 传统的自我中心视频和人体运动映射学习面临两大挑战:一是由于用户的大部分身体通常不在前置摄像头的视野内,导致模型难以捕捉到完整的身体运动;二是构建大规模、高质量的配对自我中心视频和三维人体运动数据集成本高昂,且受限于特定环境。为了解决这些问题,作者提出了EgoEgo方法,将问题分解为两个阶段,利用头部运动作为中间表征来连接。 EgoEgo首先结合SLAM(Simultaneous Localization and Mapping)技术与学习方法来估计头部姿势。SLAM用于定位和构建环境地图,但在自我中心视频中,由于重力方向的不确定性以及估计空间与真实世界的尺度差异,直接应用SLAM并不理想。因此,他们提出了一种混合解决方案,利用SLAM提供初始估计,然后通过学习模型进一步校正,以获得更准确的头部运动估计。 在第二个阶段,EgoEgo利用预测的头部姿势生成全身运动。这里,他们设计了一个条件扩散模型,该模型能够根据头部姿势条件生成多样化的全身运动序列。这一阶段的关键在于头部运动与身体运动之间的关联性,人的头部通常相对稳定,与身体的质心保持一致,使得头部运动成为了预测全身运动的有效特征。 为了系统地评估EgoEgo模型和其他基线方法,研究人员构建了一个名为AMASS-Replica-Ego-Syn (ARES)的同步数据集,其中包含了配对的自我中心视频和三维人体运动。ARES数据集的创建为未来的研究提供了基准测试平台,有助于推动视觉运动技能学习和模拟到真实世界的迁移工作。 EgoEgo提出了一种新颖的策略,通过分阶段的头部和身体姿态估计,解决了自我中心视频中人体运动估计的难题,无需依赖配对的训练数据集。这种方法不仅提高了估计的准确性,还扩大了可用数据源的范围,促进了在各种环境和场景下的广泛应用。