World Pilot: 使用世界动作先验引导视觉-语言-动作模型

Hugging Face Daily Papers 论文

摘要

World Pilot 通过融入来自世界动作模型的动态场景演变和轨迹先验来增强视觉-语言-动作模型,在操作任务上实现了最先进的零样本性能。

视觉-语言-动作(VLA)模型通过大规模预训练继承了语义基础,并在分布内的操作任务上表现出色。然而,这种语义基础建立在静态图像-文本对之上,而操作是一个连续的、接触丰富的动态过程,预训练无法捕捉其动态特性。我们提出了 World Pilot,这是一个 VLA 框架,通过两种互补路径将来自世界动作模型(WAM)的先验注入决策链。潜变量引导(Latent Steering)通过场景演变潜变量对感知层进行条件化,而动作引导(Action Steering)则将预期轨迹作为运动先验提供给动作生成器。这两个先验共同为 VLA 提供了场景的预期视图和轨迹级的运动提示,同时保留了语义条件化。即使场景演变先验由未经过动作后训练的视频预训练世界模型提供,它仍然有效。World Pilot 在 LIBERO-Plus 零样本 OOD 基准测试上实现了 84.7% 的最优总成功率,并在四个操作任务的每个真实机器人设置上均取得了最高成功率,在视角、几何形状、变形状态和姿态变化下优势最为显著。项目网站:https://world-pilot.github.io/
查看原文
查看缓存全文

缓存时间: 2026/06/11 13:41

论文页面 - World Pilot:利用世界动作先验引导视觉-语言-动作模型

来源:https://huggingface.co/papers/2606.12403

摘要

World Pilot 通过将动态场景演化与轨迹先验融入世界动作模型,增强了视觉-语言-动作模型,在零样本分布外操作任务中取得了优异性能。

视觉-语言-动作(VLA)模型继承了大规模预训练带来的语义基础,并在各类分布内操作任务(https://huggingface.co/papers?q=manipulation%20tasks)上表现良好。然而,这一语义基础建立在静态图像-文本对之上,而操作是一个连续的、接触丰富的动态过程,此类预训练无法捕获其动态特性。我们提出 World Pilot,这是一个 VLA 框架,通过两条互补通路将世界动作模型(WAM)的先验融入决策链:潜在引导(https://huggingface.co/papers?q=Latent%20Steering)将感知层条件建立在场景演化潜在变量(https://huggingface.co/papers?q=scene-evolution%20latent)之上;动作引导(https://huggingface.co/papers?q=Action%20Steering)则提供一个预期轨迹(https://huggingface.co/papers?q=anticipated%20trajectory)作为运动先验(https://huggingface.co/papers?q=motion%20prior)输入动作生成器。两者结合,使 VLA 在语义条件之外,获得了场景的预期视角和轨迹级运动提示;并且,即使场景演化先验由未经动作后训练的、仅视频预训练的世界模型提供,该先验依然有效。World Pilot 在 LIBERO-Plus 零样本 OOD 基准(https://huggingface.co/papers?q=zero-shot%20OOD%20benchmark)上达到了 84.7% 的总成功率(state-of-the-art),并在四项操作任务(https://huggingface.co/papers?q=manipulation%20tasks)的所有实际机器人设置中均取得最高成功率,尤其在视角、几何、变形状态和位姿变化下的提升幅度最大。项目网站:https://world-pilot.github.io/

查看 arXiv 页面(https://arxiv.org/abs/2606.12403)查看 PDF(https://arxiv.org/pdf/2606.12403)项目页面(https://world-pilot.github.io/)GitHub9(https://github.com/ZefuLin/WorldPilot)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.12403)

在你的代理中获取此论文:

hf papers read 2606\.12403

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本论文的模型 (1 个)

Chedan86/WorldPilot-LIBERO 机器人学 • 更新于约 12 小时前 • 1 (https://huggingface.co/Chedan86/WorldPilot-LIBERO)

引用本论文的数据集 (1 个)

Chedan86/WorldPilot-LIBERO-precompute 更新于约 12 小时前 • 841 • 1 (https://huggingface.co/datasets/Chedan86/WorldPilot-LIBERO-precompute)

引用本论文的 Space (0 个)

没有链接此论文的 Space

请在 Space 的 README.md 中引用 arxiv.org/abs/2606.12403,以将其链接到此页面。

包含本论文的合集 (1 个)

相似文章

使用语言模型先验从观测中学习POMDP世界模型

Hugging Face Daily Papers

本文介绍了Pinductor,一种利用语言模型先验从有限的观测-动作数据中高效学习POMDP世界模型的方法,其性能与具有特权隐藏状态访问的方法相当,同时超越了传统的表格方法。

世界-动作交互模型的DAWN

Hugging Face Daily Papers

本文介绍了DAWN,一种用于世界-动作交互模型(WAIMs)的潜在生成基线,通过递归细化联合建模场景演化与动作生成,在自动驾驶场景中实现了强大的长时域规划性能。