VideoMDM: 基于2D监督的3D人体运动生成方法
摘要
VideoMDM利用扩散框架,通过2D重投影损失和3D运动正则化器,从2D姿态中训练3D人体运动先验,在无需3D真实数据的情况下实现了接近3D监督的性能。
查看缓存全文
缓存时间: 2026/06/12 02:52
论文页面 - VideoMDM: 从二维监督迈向三维人体运动生成
Source: https://huggingface.co/papers/2606.13364
摘要
VideoMDM 利用带有二维重投影损失和三维运动正则化器的扩散框架,从二维姿态训练三维人体运动先验,无需三维真实标注即可实现接近三维监督的性能。
我们介绍了 VideoMDM,一个 adiffusion-based framework,它直接从从单目视频中提取的精确 2D poses 训练 3D human motion priors,无需任何三维真实标注。一个预训练的 2D-to-3D lifter 提供近似三维姿态序列,作为带噪声的教师:这些序列经过扩散、由模型在三维空间降噪,并通过将预测重投影并与精确关键点比较,在二维空间进行监督。我们证明,在温和假设下,depth-weighted 2D reprojection loss 在期望上等价于直接的三维监督,并且我们将标准的三维运动正则化器 —— velocity consistency 和 over-parameterized representation alignment —— 适配到这一二维设定。与仅在推理时从二维提升到三维的方法不同,VideoMDM 在训练期间学习一个连贯的 3D motion manifold。在 HumanML3D 上,它几乎缩小了与完全三维监督的 MDM 之间的差距(FID 0.88 vs 0.54);在真实视频数据集 Fit3D 和 NBA 上,该方法学习生成人类持续偏好的运动,并取得了强有力的定量结果。
查看 arXiv 页面查看 PDF项目页面GitHub添加到收藏集
在你的代理中获取此论文:
hf papers read 2606\.13364
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接此论文
在模型的 README.md 中引用 arxiv.org/abs/2606.13364,即可从此页面链接。
引用此论文的数据集0
没有数据集链接此论文
在数据集的 README.md 中引用 arxiv.org/abs/2606.13364,即可从此页面链接。
引用此论文的 Space0
没有 Space 链接此论文
在 Space 的 README.md 中引用 arxiv.org/abs/2606.13364,即可从此页面链接。
包含此论文的收藏集0
没有收藏集包含此论文
将此论文添加到收藏集中,即可从此页面链接。
相似文章
PhyMotion: 面向物理驱动人体视频生成的结构化3D运动奖励
PhyMotion 提出一种基于物理的奖励系统,评估生成视频中人体运动的运动学合理性、接触一致性和动态可行性,与人类判断具有更强的相关性,并在基于强化学习的后训练中提升运动真实感。
DeVI:基于物理的灵巧人-物交互,通过合成视频模仿实现
DeVI 提出一种框架,借助混合 3D-2D 跟踪奖励,将文本驱动的合成视频转化为具备物理可信度的灵巧机器人控制,实现对未见物体的零样本泛化。
ReImagine:以图像为先的可控高质量人体视频生成新思路
ReImagine 提出“图像优先”的可控高质量人体视频生成方案,借助 SMPL-X 动作引导与视频扩散模型,将外观建模与时间一致性解耦。
TrackCraft3R: 改造视频扩散变换器用于密集3D追踪
TrackCraft3R 改造视频扩散变换器,用于从单目视频进行密集3D追踪。它采用双潜在表示和时间RoPE对齐,以比先前方法快1.3倍的速度和少4.6倍的峰值内存,实现了最先进的性能。
Pantheon360: 通过3D感知360度视频扩散驯服数字孪生生成
Pantheon360引入了一种3D感知360度视频扩散框架,该框架使用显式3D缓存来强制执行几何一致性,从而能够从稀疏360度输入中生成高保真数字孪生。