WorldCraft:从相机导航到交互式视频世界模型中的物体操控

Hugging Face Daily Papers 论文

摘要

WorldCraft扩展了交互式视频世界模型,通过专门的控制流水线,在保持相机导航能力的同时实现物体级别的轨迹控制。

最近的基于视频的世界模型使像素空间环境在相机层面具有交互性:用户可以导航视角,同时模型生成连贯的视觉延续。然而,它们的动作空间仍然不完整:用户可以移动相机,但无法对单个物体进行操作。由于现实世界的交互本质上是面向物体的,这类模型更接近于被动的场景观察者,而不是真正可操控的环境。我们提出了WorldCraft,这是一个将交互式视频世界模型从相机导航扩展到物体级轨迹动作的框架。给定用户点击和绘制的路径,WorldCraft生成未来帧,其中选中的物体遵循指定轨迹,同时相机继续导航场景。WorldCraft通过一个以轨迹为中心的控制流水线实现这一点:首先,归一化世界轨迹(NWT)在相机不变的世界坐标系中表示用户绘制的运动,并根据当前相机姿态动态重新投影,将物体运动与相机引起的屏幕空间位移分离;然后,空间路径LoRA(SP-LoRA)通过模型的空间控制路径注入这个世界空间信号,在保留预训练相机控制器的同时增加物体操控能力;最后,轨迹锚定状态持久化(TASP)将世界轨迹视为一个持久空间状态,并在轨迹条件生成后刷新自回归记忆,使移动后的物体在离开相机视野后能够重新出现在更新后的位置。实验表明,WorldCraft实现了精确的物体控制,在仅相机的评估中保持了视频世界模型的相机保真度,并在包含离相机偏移的长自回归展开中保持了物体状态。
查看原文
查看缓存全文

缓存时间: 2026/06/09 12:41

论文页面 - WorldCraft:从相机导航到交互式视频世界模型中的物体操控

来源:https://huggingface.co/papers/2605.25077
作者:

,
,
,
,
,
,
,
,
,
,

摘要

WorldCraft 扩展了交互式视频世界模型,通过专门的操控流水线实现物体级别的轨迹控制,同时保留相机导航能力。

近期基于视频的世界模型 (https://huggingface.co/papers?q=video-based%20world%20models) 实现了像素空间环境在相机层面的交互:用户可以导航视角,而模型生成连贯的视觉延续。然而,其动作空间仍不完整:用户可移动相机,却无法对单个物体施加动作。由于现实世界中的交互本质上是物体为中心的,这类模型更接近被动的场景观察者,而非真正可操控的环境。我们提出 WorldCraft,一个将交互式视频世界模型 (https://huggingface.co/papers?q=world%20models) 从相机导航 (https://huggingface.co/papers?q=camera%20navigation) 扩展到物体级轨迹动作 (https://huggingface.co/papers?q=object-level%20trajectory%20actions) 的框架。给定用户点击和粗略路径,WorldCraft 生成未来帧,其中选中的物体沿指定轨迹运动,同时相机继续在场景中导航。WorldCraft 通过轨迹中心的操控流水线实现这一点:首先,归一化世界轨迹 (https://huggingface.co/papers?q=Normalized%20World%20Trajectory) (NWT (https://huggingface.co/papers?q=NWT)) 在相机不变的世界坐标系 (https://huggingface.co/papers?q=camera-invariant%20world%20coordinate%20system) 中表示用户绘制的运动,并动态地将其重新投影到当前相机姿态下,将物体运动与相机引起的屏幕空间位移 (https://huggingface.co/papers?q=screen-space%20displacement) 分离开来;然后,空间路径 LoRA (https://huggingface.co/papers?q=Spatial-Pathway%20LoRA) (SP-LoRA (https://huggingface.co/papers?q=SP-LoRA)) 通过模型的空间控制通路 (https://huggingface.co/papers?q=spatial-control%20pathway) 注入这个世界空间信号,在保留预训练相机控制器的同时增加物体操控能力;最后,轨迹锚定状态持久化 (https://huggingface.co/papers?q=Trajectory-Anchored%20State%20Persistent) (TASP (https://huggingface.co/papers?q=TASP)) 将世界轨迹视为持久化的空间状态,并在轨迹条件生成 (https://huggingface.co/papers?q=trajectory-conditioned%20generation) 后刷新自回归记忆 (https://huggingface.co/papers?q=autoregressive%20memory),使得移动的物体在离开相机视野后能够出现在其更新后的位置。实验表明,WorldCraft 实现了精确的物体控制,在仅相机评估下保留了基于视频的世界模型的相机保真度,并在长自回归 rollout 及离机旅程中维持物体状态。

查看 arXiv 页面 (https://arxiv.org/abs/2605.25077)
查看 PDF (https://arxiv.org/pdf/2605.25077)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.25077)

通过代理获取此论文:

hf papers read 2605.25077

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型链接到此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.25077 以从此页面链接。

引用此论文的数据集 0

没有数据集链接到此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.25077 以从此页面链接。

引用此论文的 Space 0

没有 Space 链接到此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.25077 以从此页面链接。

包含此论文的收藏 0

没有收藏包含此论文

请将此论文添加到收藏 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

τ_0-WM: 用于机器人操作的统一视频-动作世界模型

Hugging Face Daily Papers

τ_0-WM是一个统一的视频-动作世界模型,用于机器人操作,它通过共享的视频扩散主干集成了策略学习、视频预测和动作评估。在具有挑战性的长周期和细粒度任务上表现出卓越性能。