MolmoMotion:语言引导的3D运动预测

Hugging Face Blog 模型

摘要

MolmoMotion是一种新的语言引导的3D运动预测模型,它从视频帧和动作描述中预测未来的3D点轨迹,性能优于现有方法。同时,该模型还发布了一个大型数据集(MolmoMotion-1M)和一个基准(PointMotionBench)。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/06/17 17:36

MolmoMotion: 语言引导的3D运动预测

来源:https://huggingface.co/blog/allenai/molmomotion 返回文章列表 (https://huggingface.co/blog)

https://huggingface.co/login?next=%2Fblog%2Fallenai%2Fmolmomotion-

Kyle Wiggers 的头像 (https://huggingface.co/Ai2Comms)

  • MolmoMotion: 技术内幕 (https://huggingface.co/blog/allenai/molmomotion#molmomotion-under-the-hood)
  • 介绍 MolmoMotion-1M 和 PointMotionBench (https://huggingface.co/blog/allenai/molmomotion#introducing-molmomotion-1m-and-pointmotionbench)
  • 实验与性能 (https://huggingface.co/blog/allenai/molmomotion#experiments-and-performance) - 3D运动预测 (https://huggingface.co/blog/allenai/molmomotion#3d-motion-forecasting) - 下游评估:机器人规划 (https://huggingface.co/blog/allenai/molmomotion#downstream-evaluation-robotics-planning) - 下游评估:视频生成 (https://huggingface.co/blog/allenai/molmomotion#downstream-evaluation-video-generation)
  • 局限性与未来方向 (https://huggingface.co/blog/allenai/molmomotion#limitations-and-whats-next)

🧠 模型:https://huggingface.co/collections/allenai/molmomotion| 📄 技术报告:https://allenai.org/papers/molmomotion| 📊 数据:https://huggingface.co/datasets/allenai/molmo-motion-1m| 💻 代码:https://github.com/allenai/molmo-motion.git| 🌐 项目页面:https://molmomotion.github.io/

机器已经变得非常擅长感知运动。给定一个视频,现代模型能够以极高的置信度追踪物体和点在场景中的移动方式。但感知本质上是回顾性的:它解释已经发生过的运动。而我们想要构建的许多系统和应用需要的是前瞻。一个正在抓取杯子的机器人必须预测杯子在被触碰之前会如何移动。一个视频生成器必须知道接下来会出现什么合理的运动,才能生成物理上可信的帧。

预测运动比观察运动更难,但在许多场景中也更有用。

这一想法正是我们今天发布的MolmoMotion (https://huggingface.co/collections/allenai/molmomotion) 新运动预测模型的动机。给定一个视频帧、物体上标记的3D点以及描述预期动作的文字指令(例如,“移动并旋转桌上装有水果的木碗”),MolmoMotion 将预测这些点在接下来几秒内在3D空间中的移动——其性能显著优于现有的预测方法。

观看视频 (https://stream.mux.com/tFUDQIEocknFyVAHy2uLFlSh9HMoXets/high.mp4)给定一个RGB观测、物体上的一组查询点以及一个动作描述,MolmoMotion 预测该物体未来的3D点轨迹。这些预测轨迹随后可用于机器人规划和轨迹条件视频生成等下游应用。

除了模型,我们还发布了MolmoMotion-1M (https://huggingface.co/datasets/allenai/molmo-motion-1m),这是迄今为止与动作描述配对的3D点轨迹最大规模的数据集,源自116万个视频。我们还发布了PointMotionBench (https://huggingface.co/datasets/allenai/PointMotionBench),这是一个经过人工验证的基准测试,旨在衡量以物体为中心的3D运动预测准确性,包含2700个视频片段。

我们发现像 MolmoMotion 这样的运动预测器在从机器人规划到可控视频生成等一系列下游任务中都很有用。我们公开了模型权重、MolmoMotion-1M 数据集以及 PointMotionBench 基准测试,供社区研究、改进和定制。

https://huggingface.co/blog/allenai/molmomotion#molmomotion-under-the-hood MolmoMotion: 技术内幕

MolmoMotion 以一种精心设计、高效的方式表示运动:即世界空间中的物体附着3D点,这种方式能够捕捉运动而无需渲染完整视频的成本。我们选择它是因为我们需要一种具备三种属性的通用运动表示:

  1. 类别无关:不依赖于人体、手部、刚体或任何其他固定类别的模板。
  2. 视角稳定:相同的物理运动应在不同相机和视角下保持一致表示。
  3. 可直接用于需要推理物理运动的下游系统。

在我们考虑过的表示方法中,它是唯一满足所有三个条件的一个。一组稀疏的表面点可以描述刚体、铰接式以及(在一定限度内)可变形运动,而无需假设被移动物体的类型。由于这些点位于共享的世界坐标系中,它们的轨迹在相机运动和视角变化下保持稳定。而且由于它们是3D空间中紧凑的显式轨迹,可以直接传递给机器人策略或视频生成模型等系统。

为了预测这些轨迹,MolmoMotion 使用 Molmo 2 作为骨干网络,使其能够将语言指令与图像中的物体和点关联起来。给定一段简短的历史视频、一个动作描述以及一组包含初始3D位置的查询点,模型首先识别所引用的物体、查询点以及指令描述的运动。然后预测每个点未来的3D轨迹。

我们训练了两种 MolmoMotion 变体:

  • 自回归变体 (MolmoMotion-AR) 逐步预测未来的坐标。它将3D坐标表示为结构化文本,遵循VLM使用的坐标式预测,并按时间顺序写出未来轨迹。由于每个新坐标都基于已生成的轨迹,这有助于生成平滑的输出,并在未来路径明确时提供最高的准确性。
  • 流匹配变体 (MolmoMotion-FM) 通过将噪声转化为运动来预测连续3D空间中的轨迹,这使得它更适合表示当一条指令允许多种可能未来时的不确定性。

model_arc (1) (https://cdn-uploads.huggingface.co/production/uploads/638e39b249de7ae552d977b5/HHvNyFV4Hq5XBrzTNZEG2.png)

MolmoMotion 架构。Molmo 2 骨干网络的共享输入包括 RGB 观测的图像标记、动作描述的文本标记以及从 Molmo 2 视觉编码器中采样的2D查询点特征标记。MolmoMotion-AR 对初始3D查询坐标进行编码,并将未来轨迹解码为量化坐标文本,而 MolmoMotion-FM 则直接在连续3D坐标空间中表示它们。

https://huggingface.co/blog/allenai/molmomotion#introducing-molmomotion-1m-and-pointmotionbench 介绍 MolmoMotion-1M 和 PointMotionBench

为了训练 MolmoMotion,我们需要尚不存在的数据:大规模视频中包含锚定到特定物体且与动作描述配对的3D点轨迹。现有的3D跟踪数据集规模小且领域受限,而互联网视频虽然具备我们想要的规模和多样性,但没有3D标注。因此,我们构建了一个自动化管线,用于从无约束视频中提取物体锚定的3D轨迹。

给定一个输入视频及其动作描述,我们的标注管线可以生成以公制世界坐标表示的物体锚定3D点轨迹。(下图展示了每个阶段。)难点在于,无约束视频中的原始轨迹带有噪声——深度和跟踪误差导致点抖动和漂移——而且物体在视频的大部分时间里通常保持静止。为了使数据更可靠,我们过滤掉不与物体其余部分一致移动的点,对剩余轨迹进行平滑处理,并将每个片段裁剪到物体实际移动的时间窗口。

大规模运行我们的管线生成了 MolmoMotion-1M——据我们所知,这是迄今为止组装的最大规模的、带有动作描述且锚定于物体的3D点轨迹语料库,涵盖736种运动类型和5600个不同物体。

观看视频 (https://stream.mux.com/ESYTT69ckxwlqP7Cn02V1qYduekjvTW026/high.mp4)我们的数据标注管线概览。给定一个动作事件视频及其描述,我们首先锚定移动物体并在其上采样查询点。然后我们在物体上跟踪密集的2D点,将这些轨迹提升到共享的公制3D框架中,并使用物体级的空间和时间一致性先验来过滤不可靠的轨迹。最后,我们将视频裁剪在锚定物体发生有意义运动的时间间隔周围。

上方指令:“移动并旋转桌上装有水果的木碗。”下方指令:“在蓝色布上滚动粘毛器。”

上方指令:“一辆银色汽车沿道路行驶并缓慢右转。”下方指令:“一只火烈鸟将喙浸入水中,同时向右行走。”

为了评估 MolmoMotion 的预测性能,我们还构建了 PointMotionBench,一个经过人工验证的保留3D轨迹基准测试。它涵盖2700个片段,涉及111个物体类别和61种运动类型,包括室内操作、以自我为中心的手-物交互以及室外动态场景。对于每个片段,模型会获得当前观测、物体查询点以及一个动作描述,并根据预测的3D点轨迹与物体实际未来运动的匹配程度进行评估。这为我们提供了一个直接的3D运动预测定量测试,而不是依赖于生成的轨迹是否看起来合理。

https://huggingface.co/blog/allenai/molmomotion#experiments-and-performance 实验与性能

我们通过三种方式评估 MolmoMotion。首先,我们测试它是否比现有方法更准确地预测未来3D运动。其次,我们测试它所学的运动知识是否有助于机器人执行操作任务。第三,我们测试同样的知识是否有助于引导生成视频中的运动。

https://huggingface.co/blog/allenai/molmomotion#3d-motion-forecasting 3D运动预测

在 PointMotionBench 上,MolmoMotion 在所有我们测试的现有3D运动预测方法(包括像素空间视频生成器、参数化3D方法以及一个简单的匀速基线)中表现更优,涵盖各种物体、场景和动作。

MolmoMotion 能够预测多种类型的物体和场景运动,例如粘毛器在布上如何来回移动、碗在桌子上如何滑动和旋转、火烈鸟如何向右行走同时将喙浸入水中、或者汽车如何沿着道路转弯。在每种情况下,预测的路径都遵循 MolmoMotion 获得的指令,并且在我们的基准测试中与实际运动轨迹非常接近。

precision-capture-2026-06-08T04-51-19–1of3-pointmotionbench-benchmark-results (https://cdn-uploads.huggingface.co/production/uploads/638e39b249de7ae552d977b5/VqvfWJJxdm5q_8FXaPdUs.png)

https://huggingface.co/blog/allenai/molmomotion#downstream-evaluation-robotics-planning 下游评估:机器人规划

MolmoMotion 学到的运动应该能够从一个场景迁移到另一个场景——用人类手部提起杯子和用机器人夹爪提起杯子是非常不同的动作,但杯子本身在3D空间中的路径是相似的。这使得 MolmoMotion 非常适合机器人领域,因为机器人必须在移动物体之前规划它们应该如何移动。

在 DROID(一个大型的开放真实世界机器人操作视频数据集)上进行微调后,我们发现 MolmoMotion 能够在广泛的机器人规划场景中,针对不同物体、相机视角、场景和任务预测合理的物体路径。

观看视频 (https://stream.mux.com/K1wj01GkBAEVH9I5ME2z62j02WCJCYnAAr/high.mp4)观看视频 (https://stream.mux.com/hwSRRuqjub4qivRJSfjNrJeXh7hzuHkG/high.mp4)上方指令:“从容器中取出布。”下方指令:“移动锅盖。”

在仿真环境中,基于 MolmoMotion 构建的控制策略在拾取和放置任务上成功率达到76.3%,而同一策略基于 Molmo 2 的成功率为56.0%——而且学习速度更快,在10K训练步后达到51%,而 Molmo 2 版本最高仅为19%。在真实机器人上(经过微调后),MolmoMotion 仅需大约2K训练步就能达到 Molmo 2 基线在12K训练步后相同的测试L2误差。

unnamed - 2026-06-05T152016.702 (https://cdn-uploads.huggingface.co/production/uploads/638e39b249de7ae552d977b5/-3uk4z6uTrbYDcxKwVllz.png)

https://huggingface.co/blog/allenai/molmomotion#downstream-evaluation-video-generation 下游评估:视频生成

观看视频 (https://stream.mux.com/LsZyR8f2PAp9opog1o02BlUGi02x27rUyR/medium.mp4)观看视频 (https://stream.mux.com/S5T8i1WBNEAc3ZVXhRSYEH96QtzCTFrm/medium.mp4)观看视频 (https://stream.mux.com/ulSaEQIo3XJKlT5JJMKKcBYHsAyQVxS9/medium.mp4)*指令:**“一只火烈鸟将喙浸入水中,同时向右行走。”*从上到下依次为:DaS + MolmoMotion, CogVideoX-5B, 和 WAN-14B。

观看视频 (https://stream.mux.com/IwNFj8I1HcIlyM1cGJ4qA02Em014xzpzHR/high.mp4)观看视频 (https://stream.mux.com/ccUZyS7NFxkAwLH8OldRD27qfa96h6b9/high.mp4)观看视频 (https://stream.mux.com/102ovjPjH00KTK3nWmRY02zcJy00bwXDWssH/high.mp4)*指令:**“从桌上拿起圆形浅棕色盘子。”*从上到下依次为:DaS + MolmoMotion, CogVideoX-5B, 和 WAN-14B。

MolmoMotion 预测的路径也可以引导视频生成。与其让图像到视频模型仅根据文本指令猜测运动,你可以输入 MolmoMotion 的预测结果。这样生成的视频能更紧密地遵循所要求的动作,尤其是对于提示语只能模糊描述的小而精确的运动。

指标数据也支持这一点。当用于引导视频生成器时,MolmoMotion 在我们测量的所有五个运动相关指标上都优于基础模型,并在五个指标中的四个上击败了更大的图像到视频模型。

unnamed - 2026-06-05T152020.572 (https://cdn-uploads.huggingface.co/production/uploads/638e39b249de7ae552d977b5/q03BAwgpKBOwmFl2Dqn6f.png)

https://huggingface.co/blog/allenai/molmomotion#limitations-and-whats-next 局限性与未来方向

MolmoMotion 是一个能力强大的模型,但仍有一些局限性需要注意。它在训练时每个物体使用八个查询点——足够预测有用的轨迹,但不足以密集表示表面几何形状。这限制了模型处理复杂可变形运动的能力。

我们认为预测——在物体移动之前预测它们将如何移动——与感知已经存在的事物一样,是机器智能的基础。MolmoMotion 朝着这个方向迈出了一步:能够跨物体类别泛化而无需每类模板的3D运动预测,从普通视频中学习,并且是我们在 PointMotionBench 上测得的最高精度的3D运动预测器。我们预计在机器人、视频及其他领域将会有许多应用。

我们鼓励您尝试 MolmoMotion:下载权重 (https://huggingface.co/collections/allenai/molmomotion),检查训练数据 (https://huggingface.co/datasets/allenai/molmo-motion-1m),并通过 PointMotionBench (https://huggingface.co/datasets/allenai/PointMotionBench) 评估我们的方法。

相似文章

MolmoAct 2

Product Hunt

MolmoAct 2 是由 Allen Institute for Artificial Intelligence 开发的开源机器人模型,能够在执行动作前进行三维空间推理。

MotiMotion:基于视觉推理的运动控制视频生成

Hugging Face Daily Papers

MotiMotion提出了一种先推理后生成的框架,用于运动控制的视频生成。该框架利用视觉语言推理来优化运动轨迹,并采用置信度感知的控制方案来提高合理性,在新基准上优于现有方法。

MolmoAct2:面向真实场景部署的动作推理模型

Papers with Code Trending

Allen AI 发布了 MolmoAct2,这是一款专为真实场景机器人部署设计的开放权重视觉-语言-动作模型,具备新数据集、开放动作分词器以及自适应推理以降低延迟等特性。

AnyMo:基于掩码建模的任意模态条件运动生成扩展

Hugging Face Daily Papers

本文提出AnyMo,一种统一的多模态人体运动生成框架,结合基于残差FSQ的运动分词器与可扩展的掩码建模Transformer,并利用包含超过5000小时运动数据的OmniHuMo数据集,实现在任意模态组合下的高质量合成。