WorldCraft:从相机导航到交互式视频世界模型中的物体操控
摘要
WorldCraft扩展了交互式视频世界模型,通过专门的控制流水线,在保持相机导航能力的同时实现物体级别的轨迹控制。
查看缓存全文
缓存时间: 2026/06/09 12:41
论文页面 - WorldCraft:从相机导航到交互式视频世界模型中的物体操控
来源:https://huggingface.co/papers/2605.25077
作者:
,
,
,
,
,
,
,
,
,
,
摘要
WorldCraft 扩展了交互式视频世界模型,通过专门的操控流水线实现物体级别的轨迹控制,同时保留相机导航能力。
近期基于视频的世界模型 (https://huggingface.co/papers?q=video-based%20world%20models) 实现了像素空间环境在相机层面的交互:用户可以导航视角,而模型生成连贯的视觉延续。然而,其动作空间仍不完整:用户可移动相机,却无法对单个物体施加动作。由于现实世界中的交互本质上是物体为中心的,这类模型更接近被动的场景观察者,而非真正可操控的环境。我们提出 WorldCraft,一个将交互式视频世界模型 (https://huggingface.co/papers?q=world%20models) 从相机导航 (https://huggingface.co/papers?q=camera%20navigation) 扩展到物体级轨迹动作 (https://huggingface.co/papers?q=object-level%20trajectory%20actions) 的框架。给定用户点击和粗略路径,WorldCraft 生成未来帧,其中选中的物体沿指定轨迹运动,同时相机继续在场景中导航。WorldCraft 通过轨迹中心的操控流水线实现这一点:首先,归一化世界轨迹 (https://huggingface.co/papers?q=Normalized%20World%20Trajectory) (NWT (https://huggingface.co/papers?q=NWT)) 在相机不变的世界坐标系 (https://huggingface.co/papers?q=camera-invariant%20world%20coordinate%20system) 中表示用户绘制的运动,并动态地将其重新投影到当前相机姿态下,将物体运动与相机引起的屏幕空间位移 (https://huggingface.co/papers?q=screen-space%20displacement) 分离开来;然后,空间路径 LoRA (https://huggingface.co/papers?q=Spatial-Pathway%20LoRA) (SP-LoRA (https://huggingface.co/papers?q=SP-LoRA)) 通过模型的空间控制通路 (https://huggingface.co/papers?q=spatial-control%20pathway) 注入这个世界空间信号,在保留预训练相机控制器的同时增加物体操控能力;最后,轨迹锚定状态持久化 (https://huggingface.co/papers?q=Trajectory-Anchored%20State%20Persistent) (TASP (https://huggingface.co/papers?q=TASP)) 将世界轨迹视为持久化的空间状态,并在轨迹条件生成 (https://huggingface.co/papers?q=trajectory-conditioned%20generation) 后刷新自回归记忆 (https://huggingface.co/papers?q=autoregressive%20memory),使得移动的物体在离开相机视野后能够出现在其更新后的位置。实验表明,WorldCraft 实现了精确的物体控制,在仅相机评估下保留了基于视频的世界模型的相机保真度,并在长自回归 rollout 及离机旅程中维持物体状态。
查看 arXiv 页面 (https://arxiv.org/abs/2605.25077)
查看 PDF (https://arxiv.org/pdf/2605.25077)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.25077)
通过代理获取此论文:
hf papers read 2605.25077
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
没有模型链接到此论文
请在模型 README.md 中引用 arxiv.org/abs/2605.25077 以从此页面链接。
引用此论文的数据集 0
没有数据集链接到此论文
请在数据集 README.md 中引用 arxiv.org/abs/2605.25077 以从此页面链接。
引用此论文的 Space 0
没有 Space 链接到此论文
请在 Space README.md 中引用 arxiv.org/abs/2605.25077 以从此页面链接。
包含此论文的收藏 0
没有收藏包含此论文
请将此论文添加到收藏 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
WorldAct: 将单体3D世界激活为可交互的以对象为中心的场景
WorldAct是一个框架,利用多模态智能体和几何重建技术,将静态的3D生成环境转换为可编辑、可交互的以对象为中心的场景,支持对象级编辑和具身任务执行。
MultiWorld:可扩展的多智能体多视角视频世界模型
MultiWorld 是一个统一的多智能体多视角视频世界建模框架,通过多智能体条件模块与全局状态编码器,在精准控制多智能体行为的同时保持多视角一致性。
AnchorWorld: 具身自我中心世界模拟与基于视角的演化定制
AnchorWorld是一个用于自我中心世界模拟的框架,通过3D人体运动和锚点视角定义增强了交互完整性并实现了灵活的世界定制,性能优于最先进的基线。
World Pilot: 使用世界动作先验引导视觉-语言-动作模型
World Pilot 通过融入来自世界动作模型的动态场景演变和轨迹先验来增强视觉-语言-动作模型,在操作任务上实现了最先进的零样本性能。
τ_0-WM: 用于机器人操作的统一视频-动作世界模型
τ_0-WM是一个统一的视频-动作世界模型,用于机器人操作,它通过共享的视频扩散主干集成了策略学习、视频预测和动作评估。在具有挑战性的长周期和细粒度任务上表现出卓越性能。