PhyMotion: 面向物理驱动人体视频生成的结构化3D运动奖励

Hugging Face Daily Papers 论文

摘要

PhyMotion 提出一种基于物理的奖励系统,评估生成视频中人体运动的运动学合理性、接触一致性和动态可行性,与人类判断具有更强的相关性,并在基于强化学习的后训练中提升运动真实感。

生成逼真的人体运动是视频生成中一个核心但尚未解决的挑战。尽管基于强化学习(RL)的后训练在近期推动了通用视频质量的提升,但将其扩展到人体运动仍受限于一个无法可靠评分运动真实感的奖励信号。现有的视频奖励主要依赖二维感知信号,未明确建模关节式人体运动背后的三维身体状态、接触和动力学,且常常对浮空身体或物理上不合理的运动视频给出高分。为解决此问题,我们提出 PhyMotion,一种结构化、细粒度的运动奖励,它将恢复的三维人体轨迹锚定在物理模拟器中,并沿多个物理可行性维度评估运动质量。具体而言,我们从生成视频中恢复 SMPL 人体网格,将其重定向到 MuJoCo 物理模拟器中的类人机器人上,并沿三个轴评估所得运动:运动学合理性、接触与平衡一致性、以及动态可行性。每个分量提供与运动质量特定方面相关的连续且可解释的信号,使奖励能够捕捉运动的哪些方面在物理上是正确的或违反的。实验表明,PhyMotion 与人类判断的相关性强于现有奖励公式。这些优势延续到基于 RL 的后训练中,优化 PhyMotion 相比优化现有奖励能带来更大且更一致的改进,在自回归和双向视频生成器上均提升了运动真实感,无论是自动指标还是盲人评估(+68 Elo 增益)。消融实验表明,三个轴提供了互补的监督信号,同时该奖励仅以适度的训练开销保留了整体视频生成质量。
查看原文
查看缓存全文

缓存时间: 2026/05/15 04:24

论文页面 - PhyMotion: 面向物理驱动人体视频生成的结构化3D运动奖励

来源:https://huggingface.co/papers/2605.14269

摘要

PhyMotion 引入了一种基于物理的人体运动生成奖励系统,该系统通过评估运动学合理性、接触一致性和动态可行性来提升视频质量。

生成逼真的人体运动(https://huggingface.co/papers?q=human%20motion)是视频生成(https://huggingface.co/papers?q=video%20generation)中一个核心但尚未解决的挑战。尽管基于强化学习(https://huggingface.co/papers?q=reinforcement%20learning)(RL)的后训练在提升通用视频质量方面取得了近期进展,但将其扩展到人体运动(https://huggingface.co/papers?q=human%20motion)仍受到奖励信号的瓶颈——该信号无法可靠地打分运动真实感。现有视频奖励主要依赖2D感知信号,未能显式建模人体关节运动(https://huggingface.co/papers?q=human%20motion)背后的3D身体状态、接触和动力学,并且常常给浮空或物理上不合理的动作视频打高分。为解决这一问题,我们提出 PhyMotion,一种结构化的细粒度运动奖励,它将在物理模拟器(https://huggingface.co/papers?q=physics%20simulator)中恢复的3D人体轨迹与现实对标,并从物理可行性的多个维度评估运动质量。具体来说,我们从生成的视频中恢复SMPL人体网格(https://huggingface.co/papers?q=SMPL%20body%20meshes),将其重定向到MuJoCo(https://huggingface.co/papers?q=MuJoCo)物理模拟器(https://huggingface.co/papers?q=physics%20simulator)中的类人机器人上,并沿着三个轴评估所得运动:运动学合理性(https://huggingface.co/papers?q=kinematic%20plausibility)、接触与平衡一致性、以及动态可行性(https://huggingface.co/papers?q=dynamic%20feasibility)。每个组件提供一个连续的、可解释的信号,与运动质量的特定方面相关联,使奖励能够捕捉运动在物理上是正确还是违规。实验表明,PhyMotion 与人类判断的相关性比现有奖励公式更强。这些优势延续到基于RL的后训练中,优化 PhyMotion 比优化现有奖励带来更大且更一致的改进,在自回归和双向视频生成器(https://huggingface.co/papers?q=bidirectional%20video%20generators)上同时提升自动指标和盲人机评估(+68 Elo增益)。消融实验表明,三个轴提供了互补的监督信号,同时奖励在仅有适度训练开销的情况下保持了整体视频生成(https://huggingface.co/papers?q=video%20generation)质量。

查看arXiv页面(https://arxiv.org/abs/2605.14269)查看PDF(https://arxiv.org/pdf/2605.14269)项目页面(https://phy-motion.github.io/)GitHub2(https://github.com/h6kplus/PhyMotion)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.14269)

在你的agent中获取此论文:

hf papers read 2605.14269

还没有最新CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2605.14269 即可从此页面链接。

引用此论文的数据集0

没有数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.14269 即可从此页面链接。

引用此论文的Spaces0

没有Space链接到此论文

在Space README.md 中引用 arxiv.org/abs/2605.14269 即可从此页面链接。

包含此论文的收藏0

没有收藏包含此论文

将此论文添加到一个收藏(https://huggingface.co/new-collection)中即可从此页面链接。

相似文章

MotiMotion:基于视觉推理的运动控制视频生成

Hugging Face Daily Papers

MotiMotion提出了一种先推理后生成的框架,用于运动控制的视频生成。该框架利用视觉语言推理来优化运动轨迹,并采用置信度感知的控制方案来提高合理性,在新基准上优于现有方法。

视频模型可通过可验证奖励进行推理

Hugging Face Daily Papers

VideoRLVR利用基于规则的奖励的强化学习,优化视频扩散模型以进行可验证推理任务,在约束满足的视频生成中取得了优于监督方法的性能。