World Pilot: 使用世界动作先验引导视觉-语言-动作模型
摘要
World Pilot 通过融入来自世界动作模型的动态场景演变和轨迹先验来增强视觉-语言-动作模型,在操作任务上实现了最先进的零样本性能。
查看缓存全文
缓存时间: 2026/06/11 13:41
论文页面 - World Pilot:利用世界动作先验引导视觉-语言-动作模型
来源:https://huggingface.co/papers/2606.12403
摘要
World Pilot 通过将动态场景演化与轨迹先验融入世界动作模型,增强了视觉-语言-动作模型,在零样本分布外操作任务中取得了优异性能。
视觉-语言-动作(VLA)模型继承了大规模预训练带来的语义基础,并在各类分布内操作任务(https://huggingface.co/papers?q=manipulation%20tasks)上表现良好。然而,这一语义基础建立在静态图像-文本对之上,而操作是一个连续的、接触丰富的动态过程,此类预训练无法捕获其动态特性。我们提出 World Pilot,这是一个 VLA 框架,通过两条互补通路将世界动作模型(WAM)的先验融入决策链:潜在引导(https://huggingface.co/papers?q=Latent%20Steering)将感知层条件建立在场景演化潜在变量(https://huggingface.co/papers?q=scene-evolution%20latent)之上;动作引导(https://huggingface.co/papers?q=Action%20Steering)则提供一个预期轨迹(https://huggingface.co/papers?q=anticipated%20trajectory)作为运动先验(https://huggingface.co/papers?q=motion%20prior)输入动作生成器。两者结合,使 VLA 在语义条件之外,获得了场景的预期视角和轨迹级运动提示;并且,即使场景演化先验由未经动作后训练的、仅视频预训练的世界模型提供,该先验依然有效。World Pilot 在 LIBERO-Plus 零样本 OOD 基准(https://huggingface.co/papers?q=zero-shot%20OOD%20benchmark)上达到了 84.7% 的总成功率(state-of-the-art),并在四项操作任务(https://huggingface.co/papers?q=manipulation%20tasks)的所有实际机器人设置中均取得最高成功率,尤其在视角、几何、变形状态和位姿变化下的提升幅度最大。项目网站:https://world-pilot.github.io/
查看 arXiv 页面(https://arxiv.org/abs/2606.12403)查看 PDF(https://arxiv.org/pdf/2606.12403)项目页面(https://world-pilot.github.io/)GitHub9(https://github.com/ZefuLin/WorldPilot)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.12403)
在你的代理中获取此论文:
hf papers read 2606\.12403
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用本论文的模型 (1 个)
Chedan86/WorldPilot-LIBERO 机器人学 • 更新于约 12 小时前 • 1 (https://huggingface.co/Chedan86/WorldPilot-LIBERO)
引用本论文的数据集 (1 个)
Chedan86/WorldPilot-LIBERO-precompute 更新于约 12 小时前 • 841 • 1 (https://huggingface.co/datasets/Chedan86/WorldPilot-LIBERO-precompute)
引用本论文的 Space (0 个)
没有链接此论文的 Space
请在 Space 的 README.md 中引用 arxiv.org/abs/2606.12403,以将其链接到此页面。
包含本论文的合集 (1 个)
相似文章
World-Language-Action模型:统一世界建模、语言推理与动作合成
本文介绍了World-Language-Action(WLA)模型,这是一种具身基础模型,能够从文本、图像和机器人状态中联合预测文本子任务、子目标图像和机器人动作,在模拟和真实环境中实现了最先进的多任务与长周期学习能力。
Qwen-VLA:统一跨任务、环境与机器人具身形态的视觉-语言-动作建模
Qwen-VLA是一个面向具身决策的统一视觉-语言-动作模型,整合了不同机器人平台上的操作、导航与轨迹预测。它采用基于DiT的动作解码器和具身感知提示条件,实现了强性能与分布外泛化。
用想象力思考:基于世界模拟器的主动式视觉空间推理
本文提出了Astra,一个主动式空间推理框架,将经过强化学习训练的VLM策略与一个世界模拟器结合起来,生成新视角的观察结果,以改进视觉语言模型中的空间推理能力。
使用语言模型先验从观测中学习POMDP世界模型
本文介绍了Pinductor,一种利用语言模型先验从有限的观测-动作数据中高效学习POMDP世界模型的方法,其性能与具有特权隐藏状态访问的方法相当,同时超越了传统的表格方法。
世界-动作交互模型的DAWN
本文介绍了DAWN,一种用于世界-动作交互模型(WAIMs)的潜在生成基线,通过递归细化联合建模场景演化与动作生成,在自动驾驶场景中实现了强大的长时域规划性能。