World Pilot: 使用世界动作先验引导视觉-语言-动作模型

Hugging Face Daily Papers 2026/06/10 00:00 论文

vision-language-action world-action-model robotics manipulation zero-shot trajectory-priors dynamic-scene

摘要

World Pilot 通过融入来自世界动作模型的动态场景演变和轨迹先验来增强视觉-语言-动作模型，在操作任务上实现了最先进的零样本性能。

视觉-语言-动作（VLA）模型通过大规模预训练继承了语义基础，并在分布内的操作任务上表现出色。然而，这种语义基础建立在静态图像-文本对之上，而操作是一个连续的、接触丰富的动态过程，预训练无法捕捉其动态特性。我们提出了 World Pilot，这是一个 VLA 框架，通过两种互补路径将来自世界动作模型（WAM）的先验注入决策链。潜变量引导（Latent Steering）通过场景演变潜变量对感知层进行条件化，而动作引导（Action Steering）则将预期轨迹作为运动先验提供给动作生成器。这两个先验共同为 VLA 提供了场景的预期视图和轨迹级的运动提示，同时保留了语义条件化。即使场景演变先验由未经过动作后训练的视频预训练世界模型提供，它仍然有效。World Pilot 在 LIBERO-Plus 零样本 OOD 基准测试上实现了 84.7% 的最优总成功率，并在四个操作任务的每个真实机器人设置上均取得了最高成功率，在视角、几何形状、变形状态和姿态变化下优势最为显著。项目网站：https://world-pilot.github.io/

查看原文

查看缓存全文

缓存时间: 2026/06/11 13:41

论文页面 - World Pilot：利用世界动作先验引导视觉-语言-动作模型

来源：https://huggingface.co/papers/2606.12403

摘要

World Pilot 通过将动态场景演化与轨迹先验融入世界动作模型，增强了视觉-语言-动作模型，在零样本分布外操作任务中取得了优异性能。

视觉-语言-动作（VLA）模型继承了大规模预训练带来的语义基础，并在各类分布内操作任务（https://huggingface.co/papers?q=manipulation%20tasks）上表现良好。然而，这一语义基础建立在静态图像-文本对之上，而操作是一个连续的、接触丰富的动态过程，此类预训练无法捕获其动态特性。我们提出 World Pilot，这是一个 VLA 框架，通过两条互补通路将世界动作模型（WAM）的先验融入决策链：潜在引导（https://huggingface.co/papers?q=Latent%20Steering）将感知层条件建立在场景演化潜在变量（https://huggingface.co/papers?q=scene-evolution%20latent）之上；动作引导（https://huggingface.co/papers?q=Action%20Steering）则提供一个预期轨迹（https://huggingface.co/papers?q=anticipated%20trajectory）作为运动先验（https://huggingface.co/papers?q=motion%20prior）输入动作生成器。两者结合，使 VLA 在语义条件之外，获得了场景的预期视角和轨迹级运动提示；并且，即使场景演化先验由未经动作后训练的、仅视频预训练的世界模型提供，该先验依然有效。World Pilot 在 LIBERO-Plus 零样本 OOD 基准（https://huggingface.co/papers?q=zero-shot%20OOD%20benchmark）上达到了 84.7% 的总成功率（state-of-the-art），并在四项操作任务（https://huggingface.co/papers?q=manipulation%20tasks）的所有实际机器人设置中均取得最高成功率，尤其在视角、几何、变形状态和位姿变化下的提升幅度最大。项目网站：https://world-pilot.github.io/

查看 arXiv 页面（https://arxiv.org/abs/2606.12403）查看 PDF（https://arxiv.org/pdf/2606.12403）项目页面（https://world-pilot.github.io/）GitHub9（https://github.com/ZefuLin/WorldPilot）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.12403）

在你的代理中获取此论文：

hf papers read 2606\.12403

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本论文的模型 (1 个)

Chedan86/WorldPilot-LIBERO 机器人学 • 更新于约 12 小时前 • 1 (https://huggingface.co/Chedan86/WorldPilot-LIBERO)

引用本论文的数据集 (1 个)

Chedan86/WorldPilot-LIBERO-precompute 更新于约 12 小时前 • 841 • 1 (https://huggingface.co/datasets/Chedan86/WorldPilot-LIBERO-precompute)

引用本论文的 Space (0 个)

没有链接此论文的 Space

请在 Space 的 README.md 中引用 arxiv.org/abs/2606.12403，以将其链接到此页面。

World Pilot: 使用世界动作先验引导视觉-语言-动作模型

论文页面 - World Pilot：利用世界动作先验引导视觉-语言-动作模型

摘要

引用本论文的模型 (1 个)

Chedan86/WorldPilot-LIBERO 机器人学 • 更新于约 12 小时前 • 1 (https://huggingface.co/Chedan86/WorldPilot-LIBERO)

引用本论文的数据集 (1 个)

Chedan86/WorldPilot-LIBERO-precompute 更新于约 12 小时前 • 841 • 1 (https://huggingface.co/datasets/Chedan86/WorldPilot-LIBERO-precompute)

引用本论文的 Space (0 个)

包含本论文的合集 (1 个)

相似文章

APT：动作专家预训练提升视觉-语言-动作策略的指令泛化能力

从动作到世界建模的可迁移动态先验学习

World-Language-Action模型：统一世界建模、语言推理与动作合成

Qwen-VLA：统一跨任务、环境与机器人具身形态的视觉-语言-动作建模

用想象力思考：基于世界模拟器的主动式视觉空间推理

提交意见反馈