【免费】Ego-BodyPoseEstimationviaEgo-HeadPoseEstimation译文

需积分: 0 35 浏览量更新于2023-07-15 收藏 1.25MB PDF 举报

《通过自我-头部姿势估计进行自我-身体姿势估计》摘要：从以自我为中心的视频序列中估计人类的三维运动在理解人类行为方面起着关键作用，并在VR/AR中有着各种应用。然而，天真地学习以自我为中心的视频和人类运动之间的映射是具有挑战性的，因为用户的身体往往无法被置于用户头部的前置摄像头所观察到。此外，收集大规模、高质量的数据集，包括配对的以自我为中心的视频和三维人体运动，需要精确的运动捕捉设备，而这些设备往往将视频中的各种场景限制在类似实验室的环境中。为了消除对成对的自我中心视频和人体运动的需求，我们提出了一种新的方法，即通过自我-头部姿势估计的自我身体姿势估计（EgoEgo），该方法将问题分解为两个阶段，由头部运动作为中间代表来连接。 EgoEgo首先整合了SLAM和一种学习方法，以估计准确 †表示同等贡献。《通过自我-头部姿势估计进行自我-身体姿势估计》这篇论文是CVPR2023会议的一篇文章，探讨了从以自我为中心的视频序列中估计三维人体运动的技术。这项研究对于理解和开发虚拟现实（VR）和增强现实（AR）应用至关重要，因为它涉及到实时追踪和解析用户的行为。传统的自我中心视频和人体运动映射学习面临两大挑战：一是由于用户的大部分身体通常不在前置摄像头的视野内，导致模型难以捕捉到完整的身体运动；二是构建大规模、高质量的配对自我中心视频和三维人体运动数据集成本高昂，且受限于特定环境。为了解决这些问题，作者提出了EgoEgo方法，将问题分解为两个阶段，利用头部运动作为中间表征来连接。 EgoEgo首先结合SLAM（Simultaneous Localization and Mapping）技术与学习方法来估计头部姿势。SLAM用于定位和构建环境地图，但在自我中心视频中，由于重力方向的不确定性以及估计空间与真实世界的尺度差异，直接应用SLAM并不理想。因此，他们提出了一种混合解决方案，利用SLAM提供初始估计，然后通过学习模型进一步校正，以获得更准确的头部运动估计。在第二个阶段，EgoEgo利用预测的头部姿势生成全身运动。这里，他们设计了一个条件扩散模型，该模型能够根据头部姿势条件生成多样化的全身运动序列。这一阶段的关键在于头部运动与身体运动之间的关联性，人的头部通常相对稳定，与身体的质心保持一致，使得头部运动成为了预测全身运动的有效特征。为了系统地评估EgoEgo模型和其他基线方法，研究人员构建了一个名为AMASS-Replica-Ego-Syn (ARES)的同步数据集，其中包含了配对的自我中心视频和三维人体运动。ARES数据集的创建为未来的研究提供了基准测试平台，有助于推动视觉运动技能学习和模拟到真实世界的迁移工作。 EgoEgo提出了一种新颖的策略，通过分阶段的头部和身体姿态估计，解决了自我中心视频中人体运动估计的难题，无需依赖配对的训练数据集。这种方法不仅提高了估计的准确性，还扩大了可用数据源的范围，促进了在各种环境和场景下的广泛应用。

资源推荐

资源评论