MotiMotion：基于视觉推理的运动控制视频生成

Hugging Face Daily Papers 2026/05/21 00:00 论文

摘要

MotiMotion提出了一种先推理后生成的框架，用于运动控制的视频生成。该框架利用视觉语言推理来优化运动轨迹，并采用置信度感知的控制方案来提高合理性，在新基准上优于现有方法。

当前的基于运动控制的图像到视频生成模型严格遵循用户提供的运动轨迹，这些轨迹通常稀疏、不精确且因果不完整。这种依赖往往导致不自然或不合理的结果，尤其是忽略了次要因果后果。为了解决这个问题，我们提出了MotiMotion，一种新颖的框架，将运动控制重新定义为先推理后生成的问题。为了促进基于因果且符合常识的交互，我们利用了一个无需训练的视觉语言推理器来优化主要轨迹的图像空间坐标，并推断出合理的次要运动。为了进一步提高运动的自然度，我们提出了一种置信度感知的控制方案，可以调节引导强度，使模型能够紧密遵循高置信度计划，同时在低置信度输入下利用其内部生成先验来修正伪影。为了支持系统性评估，我们整理了一个新的图像到视频基准MotiBench，包含以交互为中心的场景，其中新事件由运动触发。基于VLM的评估和在MotiBench上的人类研究均表明，MotiMotion生成的视频具有更合理的物体行为和交互，并且优于现有方法。

查看原文

查看缓存全文

缓存时间: 2026/05/26 22:46

论文页面 - MotiMotion: 基于视觉推理的受控运动视频生成

来源：https://huggingface.co/papers/2605.22818

摘要

MotiMotion 提出了一种用于运动控制视频生成的“先推理后生成”框架，通过视觉语言推理和置信度感知的控制机制，提升了生成结果的合理性。

当前的受控运动图像到视频生成模型通常严格遵循用户提供的轨迹，而这些轨迹往往稀疏、不精确且因果不完整。这种依赖常常导致不自然或不合逻辑的结果，尤其是在忽略次要因果后果时。为解决这一问题，我们提出 MotiMotion——一种将运动控制重新定义为“先推理后生成”问题的新框架。为了鼓励基于因果和常识一致的交互，我们利用一个无需训练的视觉语言推理器来优化主轨迹的图像空间坐标，并想象出合理的次要运动。为进一步提升运动的自然度，我们提出了一种置信度感知的控制方案，该方案可调节引导强度，使模型在高度置信的计划下紧密跟随，同时在低置信度输入下利用自身生成先验修正伪影。为支持系统化评估，我们整理了一个新的图像到视频基准数据集 MotiBench，其中包含由运动触发新事件的交互中心场景。基于 VLM 的评估和在 MotiBench 上进行的人类研究均表明，MotiMotion 生成的视频具有更合理的物体行为与交互，且优于现有方法。

查看 arXiv 页面 (https://arxiv.org/abs/2605.22818) 查看 PDF (https://arxiv.org/pdf/2605.22818) 项目页面 (https://motimotion.github.io/) GitHub2 (https://github.com/motimotion/motimotion) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.22818)

引用此论文的模型 0

暂无模型引用此论文

在模型 README.md 中引用 arxiv.org/abs/2605.22818 即可从此页面链接。

引用此论文的数据集 1

shinying/motibench 预览 • 更新于 5 天前 • 125 (https://huggingface.co/datasets/shinying/motibench)

引用此论文的 Space 0

暂无 Space 引用此论文

在 Space README.md 中引用 arxiv.org/abs/2605.22818 即可从此页面链接。

包含此论文的收藏集 0

暂无包含此论文的收藏集

将此论文添加到收藏集 (https://huggingface.co/new-collection) 即可从此页面链接。

MotiMotion：基于视觉推理的运动控制视频生成

论文页面 - MotiMotion: 基于视觉推理的受控运动视频生成

摘要

引用此论文的模型 0

引用此论文的数据集 1

shinying/motibench 预览 • 更新于 5 天前 • 125 (https://huggingface.co/datasets/shinying/motibench)

引用此论文的 Space 0

包含此论文的收藏集 0

相似文章

CogOmniControl: 基于推理的可控视频生成，通过创意意图认知

OpenCoF：通过视频生成学习推理

PhyMotion: 面向物理驱动人体视频生成的结构化3D运动奖励

通过闭环验证推理解锁复杂视觉生成

CollabVR：基于视觉语言模型与视频生成模型的协作式视频推理

提交意见反馈