VideoMDM: 基于2D监督的3D人体运动生成方法

Hugging Face Daily Papers 2026/06/11 00:00 论文

diffusion 3d-human-motion 2d-supervision motion-generation computer-vision video

摘要

VideoMDM利用扩散框架，通过2D重投影损失和3D运动正则化器，从2D姿态中训练3D人体运动先验，在无需3D真实数据的情况下实现了接近3D监督的性能。

我们提出了VideoMDM，这是一个基于扩散的框架，能够直接从单目视频中提取的精确2D姿态训练3D人体运动先验，无需任何3D真实数据。一个预训练的2D到3D提升器提供近似的3D姿态序列，作为带噪声的教师模型：这些序列被扩散，模型在3D空间中进行去噪，并通过将预测结果重投影到2D并与精确关键点进行比较来实现2D监督。我们证明，在温和假设下，深度加权的2D重投影损失在期望上与直接3D监督等价，并且我们将标准的3D运动正则化器——速度一致性和过参数化表示对齐——适配到这一2D设置中。与仅在推理时将2D提升到3D的方法不同，VideoMDM在训练过程中学习了一个连贯的3D运动流形。在HumanML3D上，它几乎缩小了与完全3D监督的MDM之间的差距（FID 0.88 vs 0.54）；在真实视频数据集Fit3D和NBA上，该方法能够生成人类一致偏好的运动，并取得了强有力的量化结果。

查看原文

查看缓存全文

缓存时间: 2026/06/12 02:52

论文页面 - VideoMDM: 从二维监督迈向三维人体运动生成

Source: https://huggingface.co/papers/2606.13364

摘要

VideoMDM 利用带有二维重投影损失和三维运动正则化器的扩散框架，从二维姿态训练三维人体运动先验，无需三维真实标注即可实现接近三维监督的性能。

我们介绍了 VideoMDM，一个 adiffusion-based framework，它直接从从单目视频中提取的精确 2D poses 训练 3D human motion priors，无需任何三维真实标注。一个预训练的 2D-to-3D lifter 提供近似三维姿态序列，作为带噪声的教师：这些序列经过扩散、由模型在三维空间降噪，并通过将预测重投影并与精确关键点比较，在二维空间进行监督。我们证明，在温和假设下，depth-weighted 2D reprojection loss 在期望上等价于直接的三维监督，并且我们将标准的三维运动正则化器 —— velocity consistency 和 over-parameterized representation alignment —— 适配到这一二维设定。与仅在推理时从二维提升到三维的方法不同，VideoMDM 在训练期间学习一个连贯的 3D motion manifold。在 HumanML3D 上，它几乎缩小了与完全三维监督的 MDM 之间的差距（FID 0.88 vs 0.54）；在真实视频数据集 Fit3D 和 NBA 上，该方法学习生成人类持续偏好的运动，并取得了强有力的定量结果。

查看 arXiv 页面查看 PDF 项目页面 GitHub 添加到收藏集

在你的代理中获取此论文：

hf papers read 2606\.13364

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型的 README.md 中引用 arxiv.org/abs/2606.13364，即可从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集的 README.md 中引用 arxiv.org/abs/2606.13364，即可从此页面链接。

引用此论文的 Space0

没有 Space 链接此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2606.13364，即可从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集中，即可从此页面链接。

VideoMDM: 基于2D监督的3D人体运动生成方法

论文页面 - VideoMDM: 从二维监督迈向三维人体运动生成

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Space0

包含此论文的收藏集0

相似文章

PhyMotion: 面向物理驱动人体视频生成的结构化3D运动奖励

DeVI：基于物理的灵巧人-物交互，通过合成视频模仿实现

ReImagine：以图像为先的可控高质量人体视频生成新思路

TrackCraft3R: 改造视频扩散变换器用于密集3D追踪

Pantheon360: 通过3D感知360度视频扩散驯服数字孪生生成

提交意见反馈