MotiMotion:基于视觉推理的运动控制视频生成
摘要
MotiMotion提出了一种先推理后生成的框架,用于运动控制的视频生成。该框架利用视觉语言推理来优化运动轨迹,并采用置信度感知的控制方案来提高合理性,在新基准上优于现有方法。
查看缓存全文
缓存时间: 2026/05/26 22:46
论文页面 - MotiMotion: 基于视觉推理的受控运动视频生成
来源:https://huggingface.co/papers/2605.22818
摘要
MotiMotion 提出了一种用于运动控制视频生成的“先推理后生成”框架,通过视觉语言推理和置信度感知的控制机制,提升了生成结果的合理性。
当前的受控运动图像到视频生成模型通常严格遵循用户提供的轨迹,而这些轨迹往往稀疏、不精确且因果不完整。这种依赖常常导致不自然或不合逻辑的结果,尤其是在忽略次要因果后果时。为解决这一问题,我们提出 MotiMotion——一种将运动控制重新定义为“先推理后生成”问题的新框架。为了鼓励基于因果和常识一致的交互,我们利用一个无需训练的视觉语言推理器来优化主轨迹的图像空间坐标,并想象出合理的次要运动。为进一步提升运动的自然度,我们提出了一种置信度感知的控制方案,该方案可调节引导强度,使模型在高度置信的计划下紧密跟随,同时在低置信度输入下利用自身生成先验修正伪影。为支持系统化评估,我们整理了一个新的图像到视频基准数据集 MotiBench,其中包含由运动触发新事件的交互中心场景。基于 VLM 的评估和在 MotiBench 上进行的人类研究均表明,MotiMotion 生成的视频具有更合理的物体行为与交互,且优于现有方法。
查看 arXiv 页面 (https://arxiv.org/abs/2605.22818) 查看 PDF (https://arxiv.org/pdf/2605.22818) 项目页面 (https://motimotion.github.io/) GitHub2 (https://github.com/motimotion/motimotion) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.22818)
引用此论文的模型 0
暂无模型引用此论文
在模型 README.md 中引用 arxiv.org/abs/2605.22818 即可从此页面链接。
引用此论文的数据集 1
shinying/motibench 预览 • 更新于 5 天前 • 125 (https://huggingface.co/datasets/shinying/motibench)
引用此论文的 Space 0
暂无 Space 引用此论文
在 Space README.md 中引用 arxiv.org/abs/2605.22818 即可从此页面链接。
包含此论文的收藏集 0
暂无包含此论文的收藏集
将此论文添加到收藏集 (https://huggingface.co/new-collection) 即可从此页面链接。
相似文章
CogOmniControl: 基于推理的可控视频生成,通过创意意图认知
CogOmniControl是一个基于推理的可控视频生成框架,它使用在动画制作数据上训练的专业视觉语言模型(CogVLM)从稀疏条件中推断创意意图,然后通过强化学习引导基于扩散的生成器,在新基准上取得最先进的结果。
PhyMotion: 面向物理驱动人体视频生成的结构化3D运动奖励
PhyMotion 提出一种基于物理的奖励系统,评估生成视频中人体运动的运动学合理性、接触一致性和动态可行性,与人类判断具有更强的相关性,并在基于强化学习的后训练中提升运动真实感。
通过闭环验证推理解锁复杂视觉生成
介绍CLVR(闭环视觉推理),一种将文本到图像生成从单步过程重构为闭环多步视觉推理方法的框架,使用VLM控制器和扩散模型,在组合提示上实现了改进的性能。
CollabVR:基于视觉语言模型与视频生成模型的协作式视频推理
CollabVR 是一篇研究论文,提出了一种闭环框架,该框架通过协作整合视觉语言模型与视频生成模型,以改善视觉推理并实时纠正推理失败。
Motion
Motion 是一个视频代理,旨在打造品味十足的运动设计。