MoCapAnything V2: 面向任意骨骼的端到端动作捕捉

Papers with Code Trending 2026/04/30 00:00 论文

摘要

MoCapAnything V2 提出了一种面向任意骨骼单目视频动作捕捉的完全端到端框架，通过联合优化视频到姿态以及姿态到旋转的预测，解决旋转歧义性问题。

近期从单目视频中进行任意骨骼动作捕捉的方法采用了一种分解式流程，即视频到姿态（Video-to-Pose）网络预测关节位置，再通过解析逆运动学（IK）阶段恢复关节旋转。尽管这种设计有效，但其存在固有限制：关节位置无法完全确定旋转，会留下诸如骨骼轴向扭转等自由度歧义；且不可微的 IK 阶段使系统无法适应噪声预测或针对最终动画目标进行优化。在本工作中，我们提出了首个完全端到端框架，其中视频到姿态和姿态到旋转均为可学习的，并进行联合优化。我们观察到，姿态到旋转映射中的歧义源于缺失的坐标系信息：相同的关节位置在不同的休息姿态和局部轴约定下可能对应不同的旋转。为解决这一问题，我们引入了来自目标资产的参考姿态-旋转对，该参考对与休息姿态一起不仅锚定了映射关系，还定义了底层的旋转坐标系。这一表述将旋转预测转化为一个约束良好的条件问题，并实现了有效的学习。此外，我们的模型直接从视频预测关节位置，无需依赖网格中间表示，从而提升了鲁棒性和效率。两个阶段共享一个骨骼感知的全局-局部图引导多头注意力（GL-GMHA）模块，用于关节级别的局部推理和全局协调。在 Truebones Zoo 和 Objaverse 上的实验表明，我们的方法将旋转误差从约 17 度降低至约 10 度，在未见过的骨骼上达到 6.54 度，同时推理速度比基于网格的流程快约 20 倍。项目页面：https://animotionlab.github.io/MoCapAnythingV2/

查看原文

查看缓存全文

缓存时间: 2026/05/08 09:04

论文页面 - MoCapAnything V2：面向任意骨骼的端到端动作捕捉

来源：https://huggingface.co/papers/2604.28130 作者：

摘要

一种面向任意骨骼动作捕捉的完全端到端框架，联合优化视频到姿态和姿态到旋转的预测，同时通过参考姿态-旋转对和骨骼感知注意力机制解决旋转歧义性问题。

近期从单目视频中提取任意骨骼动作捕捉的方法遵循一种分解式流水线：Video-to-Pose 网络预测关节位置，然后通过解析逆运动学（IK）阶段恢复关节旋转。虽然这种方法有效，但其设计存在固有限制，因为关节位置无法完全确定旋转，会留下诸如骨骼轴扭转之类的自由度歧义，且不可微的 IK 阶段使系统无法适应噪声预测或针对最终动画目标进行优化。在本工作中，我们提出了首个完全端到端框架，其中 Video-to-Pose 和 Pose-to-Rotation 均为可学习的，并进行联合优化。我们观察到，姿态到旋转映射中的歧义源于缺失的坐标系信息：相同的关节位置在不同的 rest pose 和局部轴约定下可能对应不同的旋转。为解决这一问题，我们引入了来自目标资产的参考姿态-旋转对，它与 rest pose 一起不仅锚定了映射关系，还定义了底层旋转坐标系。这一表述将旋转预测转化为一个条件充分的问题，并实现了有效的学习。此外，我们的模型直接从视频预测关节位置，无需依赖网格中间表示，从而提高了鲁棒性和效率。两个阶段共享一个骨骼感知的全局-局部图引导多头注意力（GL-GMHA）模块，用于关节级局部推理和全局协调。在 Truebones Zoo 和 Objaverse 上的实验表明，我们的方法将旋转误差从约 17 度降低到约 10 度，在未见骨骼上达到 6.54 度，同时推理速度比基于网格的流水线快约 20 倍。项目页面：https://animotionlab.github.io/MoCapAnythingV2/

查看 arXiv 页面 (https://arxiv.org/abs/2604.28130)查看 PDF (https://arxiv.org/pdf/2604.28130)项目页面 (https://animotionlab.github.io/MoCapAnythingV2/)GitHub203 (https://github.com/animotionlab26/MocapAnything)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.28130)

引用该论文的模型0

暂无模型关联此论文

在模型 README.md 中引用 arxiv.org/abs/2604.28130 以从该页面链接。

引用该论文的数据集0

暂无数据集关联此论文

在数据集 README.md 中引用 arxiv.org/abs/2604.28130 以从该页面链接。

引用该论文的 Spaces0

暂无 Space 关联此论文

在 Space README.md 中引用 arxiv.org/abs/2604.28130 以从该页面链接。

包含该论文的收藏1

相似文章

AnyMo：几何感知的安装无关的真实环境中人体运动建模

Hugging Face Daily Papers

AnyMo是一个几何感知的框架，用于安装无关的人体运动建模，它利用基于物理的IMU模拟和图编码，在零样本活动识别、跨模态检索和运动描述等多个数据集上实现了显著改进。

AnyMo：基于掩码建模的任意模态条件运动生成扩展

Hugging Face Daily Papers

本文提出AnyMo，一种统一的多模态人体运动生成框架，结合基于残差FSQ的运动分词器与可扩展的掩码建模Transformer，并利用包含超过5000小时运动数据的OmniHuMo数据集，实现在任意模态组合下的高质量合成。

@axichuhai: 这个免费开源的3D动捕工具—freemocap，GitHub 已经斩获 9K star数不需要专业捕捉设备，只需要几个普通摄像头就可以它把多视角几何问题转化成了计算机视觉任务，用空间标定算法 + 深度学习模型，从多路普通摄像头的2D画…

X AI KOLs Timeline

Freemocap 是一个免费开源的3D动捕工具，仅需普通摄像头即可通过空间标定和深度学习模型还原精确的3D人体骨骼数据，支持多种格式导出。

MolmoMotion：语言引导的3D运动预测

Hugging Face Blog

MolmoMotion是一种新的语言引导的3D运动预测模型，它从视频帧和动作描述中预测未来的3D点轨迹，性能优于现有方法。同时，该模型还发布了一个大型数据集（MolmoMotion-1M）和一个基准（PointMotionBench）。

@andrew_n_carr: 在动作捕捉中，“无标记”这个词经常被提及。它是什么意思呢？嗯……意外吧！仍然有标记……