VideoMDM: 基于2D监督的3D人体运动生成方法

Hugging Face Daily Papers 论文

摘要

VideoMDM利用扩散框架,通过2D重投影损失和3D运动正则化器,从2D姿态中训练3D人体运动先验,在无需3D真实数据的情况下实现了接近3D监督的性能。

我们提出了VideoMDM,这是一个基于扩散的框架,能够直接从单目视频中提取的精确2D姿态训练3D人体运动先验,无需任何3D真实数据。一个预训练的2D到3D提升器提供近似的3D姿态序列,作为带噪声的教师模型:这些序列被扩散,模型在3D空间中进行去噪,并通过将预测结果重投影到2D并与精确关键点进行比较来实现2D监督。我们证明,在温和假设下,深度加权的2D重投影损失在期望上与直接3D监督等价,并且我们将标准的3D运动正则化器——速度一致性和过参数化表示对齐——适配到这一2D设置中。与仅在推理时将2D提升到3D的方法不同,VideoMDM在训练过程中学习了一个连贯的3D运动流形。在HumanML3D上,它几乎缩小了与完全3D监督的MDM之间的差距(FID 0.88 vs 0.54);在真实视频数据集Fit3D和NBA上,该方法能够生成人类一致偏好的运动,并取得了强有力的量化结果。
查看原文
查看缓存全文

缓存时间: 2026/06/12 02:52

论文页面 - VideoMDM: 从二维监督迈向三维人体运动生成

Source: https://huggingface.co/papers/2606.13364

摘要

VideoMDM 利用带有二维重投影损失和三维运动正则化器的扩散框架,从二维姿态训练三维人体运动先验,无需三维真实标注即可实现接近三维监督的性能。

我们介绍了 VideoMDM,一个 adiffusion-based framework,它直接从从单目视频中提取的精确 2D poses 训练 3D human motion priors,无需任何三维真实标注。一个预训练的 2D-to-3D lifter 提供近似三维姿态序列,作为带噪声的教师:这些序列经过扩散、由模型在三维空间降噪,并通过将预测重投影并与精确关键点比较,在二维空间进行监督。我们证明,在温和假设下,depth-weighted 2D reprojection loss 在期望上等价于直接的三维监督,并且我们将标准的三维运动正则化器 —— velocity consistencyover-parameterized representation alignment —— 适配到这一二维设定。与仅在推理时从二维提升到三维的方法不同,VideoMDM 在训练期间学习一个连贯的 3D motion manifold。在 HumanML3D 上,它几乎缩小了与完全三维监督的 MDM 之间的差距(FID 0.88 vs 0.54);在真实视频数据集 Fit3DNBA 上,该方法学习生成人类持续偏好的运动,并取得了强有力的定量结果。

查看 arXiv 页面查看 PDF项目页面GitHub添加到收藏集

在你的代理中获取此论文:

hf papers read 2606\.13364

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型的 README.md 中引用 arxiv.org/abs/2606.13364,即可从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集的 README.md 中引用 arxiv.org/abs/2606.13364,即可从此页面链接。

引用此论文的 Space0

没有 Space 链接此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2606.13364,即可从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集中,即可从此页面链接。

相似文章

TrackCraft3R: 改造视频扩散变换器用于密集3D追踪

Hugging Face Daily Papers

TrackCraft3R 改造视频扩散变换器,用于从单目视频进行密集3D追踪。它采用双潜在表示和时间RoPE对齐,以比先前方法快1.3倍的速度和少4.6倍的峰值内存,实现了最先进的性能。