PhyMotion: 面向物理驱动人体视频生成的结构化3D运动奖励
摘要
PhyMotion 提出一种基于物理的奖励系统,评估生成视频中人体运动的运动学合理性、接触一致性和动态可行性,与人类判断具有更强的相关性,并在基于强化学习的后训练中提升运动真实感。
查看缓存全文
缓存时间: 2026/05/15 04:24
论文页面 - PhyMotion: 面向物理驱动人体视频生成的结构化3D运动奖励
来源:https://huggingface.co/papers/2605.14269
摘要
PhyMotion 引入了一种基于物理的人体运动生成奖励系统,该系统通过评估运动学合理性、接触一致性和动态可行性来提升视频质量。
生成逼真的人体运动(https://huggingface.co/papers?q=human%20motion)是视频生成(https://huggingface.co/papers?q=video%20generation)中一个核心但尚未解决的挑战。尽管基于强化学习(https://huggingface.co/papers?q=reinforcement%20learning)(RL)的后训练在提升通用视频质量方面取得了近期进展,但将其扩展到人体运动(https://huggingface.co/papers?q=human%20motion)仍受到奖励信号的瓶颈——该信号无法可靠地打分运动真实感。现有视频奖励主要依赖2D感知信号,未能显式建模人体关节运动(https://huggingface.co/papers?q=human%20motion)背后的3D身体状态、接触和动力学,并且常常给浮空或物理上不合理的动作视频打高分。为解决这一问题,我们提出 PhyMotion,一种结构化的细粒度运动奖励,它将在物理模拟器(https://huggingface.co/papers?q=physics%20simulator)中恢复的3D人体轨迹与现实对标,并从物理可行性的多个维度评估运动质量。具体来说,我们从生成的视频中恢复SMPL人体网格(https://huggingface.co/papers?q=SMPL%20body%20meshes),将其重定向到MuJoCo(https://huggingface.co/papers?q=MuJoCo)物理模拟器(https://huggingface.co/papers?q=physics%20simulator)中的类人机器人上,并沿着三个轴评估所得运动:运动学合理性(https://huggingface.co/papers?q=kinematic%20plausibility)、接触与平衡一致性、以及动态可行性(https://huggingface.co/papers?q=dynamic%20feasibility)。每个组件提供一个连续的、可解释的信号,与运动质量的特定方面相关联,使奖励能够捕捉运动在物理上是正确还是违规。实验表明,PhyMotion 与人类判断的相关性比现有奖励公式更强。这些优势延续到基于RL的后训练中,优化 PhyMotion 比优化现有奖励带来更大且更一致的改进,在自回归和双向视频生成器(https://huggingface.co/papers?q=bidirectional%20video%20generators)上同时提升自动指标和盲人机评估(+68 Elo增益)。消融实验表明,三个轴提供了互补的监督信号,同时奖励在仅有适度训练开销的情况下保持了整体视频生成(https://huggingface.co/papers?q=video%20generation)质量。
查看arXiv页面(https://arxiv.org/abs/2605.14269)查看PDF(https://arxiv.org/pdf/2605.14269)项目页面(https://phy-motion.github.io/)GitHub2(https://github.com/h6kplus/PhyMotion)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.14269)
在你的agent中获取此论文:
hf papers read 2605.14269
还没有最新CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接到此论文
在模型 README.md 中引用 arxiv.org/abs/2605.14269 即可从此页面链接。
引用此论文的数据集0
没有数据集链接到此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.14269 即可从此页面链接。
引用此论文的Spaces0
没有Space链接到此论文
在Space README.md 中引用 arxiv.org/abs/2605.14269 即可从此页面链接。
包含此论文的收藏0
没有收藏包含此论文
将此论文添加到一个收藏(https://huggingface.co/new-collection)中即可从此页面链接。
相似文章
MotiMotion:基于视觉推理的运动控制视频生成
MotiMotion提出了一种先推理后生成的框架,用于运动控制的视频生成。该框架利用视觉语言推理来优化运动轨迹,并采用置信度感知的控制方案来提高合理性,在新基准上优于现有方法。
视频模型可通过可验证奖励进行推理
VideoRLVR利用基于规则的奖励的强化学习,优化视频扩散模型以进行可验证推理任务,在约束满足的视频生成中取得了优于监督方法的性能。
DeVI:基于物理的灵巧人-物交互,通过合成视频模仿实现
DeVI 提出一种框架,借助混合 3D-2D 跟踪奖励,将文本驱动的合成视频转化为具备物理可信度的灵巧机器人控制,实现对未见物体的零样本泛化。
Geo-Align: 基于度量几何奖励的视频生成对齐
Geo-Align 提出了一个用于相机可控视频重新渲染的强化学习框架,通过尺度感知的感知奖励和用于相机轨迹提取的度量三维估计来提高泛化能力。
ReImagine:以图像为先的可控高质量人体视频生成新思路
ReImagine 提出“图像优先”的可控高质量人体视频生成方案,借助 SMPL-X 动作引导与视频扩散模型,将外观建模与时间一致性解耦。