机器人需要的不仅仅是VLA和世界模型

Hugging Face Daily Papers 2026/06/04 00:00 论文

robotics vision-language-action world-models robot-learning data-interfaces embodiment reward-inference

摘要

本文立场论文认为，推进机器人智能需要将非结构化的行为数据通过专门的接口进行整合，用于标注、具身映射、世界建模和奖励推断，而不是仅仅依赖扩展视觉-语言-动作（VLA）模型和世界模型。

通用机器人智能常常被定义为一种策略扩展问题：收集更多的机器人演示数据，训练更大的视觉-语言-动作（VLA）模型，期望获得更广泛的泛化能力。在这篇立场论文中，我们认为这种定义是不完整的。核心瓶颈不仅在于策略学习，更在于缺乏将世界中丰富的非结构化行为数据转化为具有具身性的机器人监督信号的机制。人类运动、互联网视频、仿真 rollout 以及交互式演示中蕴含着关于任务、目标、接触、失败和物理约束的丰富信息，然而这些信息大部分无法直接被机器人策略使用，因为它们缺乏具身特定的动作标签、任务语义和奖励结构。我们识别出下一代机器人所需的四个缺失组件：用于自动标注非结构化行为的数据接口、用于将人类运动重定向到机器人动作的具身接口、用于物理接地3D推理的世界模型接口，以及用于从视频和语言中推断任务进度和成功与否的奖励接口。我们回顾了机器人基础模型、跨具身数据集、从视频学习、世界模型和奖励建模方面的最新进展，并提出了一项研究议程，旨在构建不仅能够从机器人演示中学习，还能从更广泛的物理世界中学习的机器人系统。

查看原文

查看缓存全文

缓存时间: 2026/06/08 11:15

论文页面 - 机器人不仅仅需要VLA与世界模型

来源：https://huggingface.co/papers/2606.06556

摘要

机器人智能的进步需要借助专门接口来整合非结构化行为数据——包括标注、具身映射、世界建模和奖励推断——而非仅仅依赖策略扩展。

通用机器人智能常被视作一个策略扩展问题：收集更多机器人演示数据（https://huggingface.co/papers?q=robot%20demonstrations），训练更大的视觉-语言-动作（VLA）模型，期望由此带来更广泛的泛化能力。在这篇立场论文中，我们认为这种框架是不完整的。核心瓶颈不仅在于策略学习，更在于缺少一种机制，能将世界中丰富的非结构化行为数据转化为可用的机器人监督信号。人类运动、互联网视频、仿真rollout以及交互式演示中包含了关于任务、目标、接触点、失败和物理约束的丰富信息，然而这些信息大多无法被机器人策略直接使用，因为它们缺乏具身特定的动作标签、任务语义和奖励结构。我们指出了下一代机器人学中缺失的四个组件：用于自动标注非结构化行为的数据接口、用于将人类运动重定向（https://huggingface.co/papers?q=retargeting）到机器人动作的具身接口、用于物理接地3D推理（https://huggingface.co/papers?q=3D%20reasoning）的世界模型接口，以及用于从视频和语言推断任务进度与成功的奖励接口。我们综述了机器人基础模型、跨具身数据集（https://huggingface.co/papers?q=cross-embodiment%20datasets）、从视频中学习、世界模型（https://huggingface.co/papers?q=world%20models）以及奖励建模方面的最新进展，并提出了一项研究议程：构建不仅能从机器人演示（https://huggingface.co/papers?q=robot%20demonstrations）中学习，还能从更广泛的物理世界中学习的机器人系统。

查看arXiv页面（https://arxiv.org/abs/2606.06556）查看PDF（https://arxiv.org/pdf/2606.06556）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.06556）

在你的代理中获取此论文：

hf papers read 2606\.06556

没有最新的CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

暂无模型与此论文关联

请在一个模型README.md中引用 arxiv.org/abs/2606.06556 以便在此页面链接。

引用此论文的数据集 0

暂无数据集与此论文关联

请在一个数据集README.md中引用 arxiv.org/abs/2606.06556 以便在此页面链接。

引用此论文的Space 0

暂无Space与此论文关联

请在一个Space README.md中引用 arxiv.org/abs/2606.06556 以便在此页面链接。

包含此论文的收藏集 0

暂无收藏集包含此论文

请将此论文添加到一个收藏集（https://huggingface.co/new-collection）以便在此页面链接。

相似文章

机器人学习中的世界模型：全面综述

Hugging Face Daily Papers

本综述全面回顾了机器人学习中世界模型的文献，涵盖其在策略学习、规划和模拟中的作用。文章突出了预测建模在具身智能体中的关键范式、基准测试及未来发展方向。

IntentVLA: 针对混叠机器人操作的短期意图建模

Hugging Face Daily Papers

IntentVLA 是一种历史条件视觉-语言-动作框架，通过从视觉观察中编码短期意图来提高机器人模仿学习的稳定性，解决了部分可观察性和模糊观察带来的挑战。它还引入了 AliasBench，这是一个用于评估此类方法的模糊感知基准。

@FeitengLi: 早上才说：具身智能的智能应该抄 LLM + RL + Agentic 作业这就来了：Agentic VLA 全线碾压头部具身公司的模型 https://x.com/FeitengLi/status/205909864717506193…

X AI KOLs Timeline

提出 Agentic-VLA 框架，将智能体引入 VLA 循环中，使视觉-语言-动作模型能够自我进化，并在各项指标上超越现有头部具身模型。

@drfeifei: https://x.com/drfeifei/status/2062247238143996275

X AI KOLs Timeline

Fei-Fei Li与World Labs团队提出了世界模型的功能分类法，区分了渲染器、物理引擎以及在强化学习循环中的其他组件，并论证空间智能是人工智能的下一个前沿。

AffordanceVLA: 一种通过可供性感知理解赋能动作生成的视觉-语言-动作模型

Hugging Face Daily Papers

AffordanceVLA引入了一个统一框架，利用结构化可供性预测作为中间表示，结合视觉-语言模型和混合Transformer架构，以改进机器人操作中的感知-动作映射。

论文页面 - 机器人不仅仅需要VLA与世界模型

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的Space 0

包含此论文的收藏集 0

相似文章

机器人学习中的世界模型：全面综述

IntentVLA: 针对混叠机器人操作的短期意图建模

@FeitengLi: 早上才说：具身智能的智能 应该抄 LLM + RL + Agentic 作业 这就来了：Agentic VLA 全线碾压头部具身公司的模型 https://x.com/FeitengLi/status/205909864717506193…

@drfeifei: https://x.com/drfeifei/status/2062247238143996275

AffordanceVLA: 一种通过可供性感知理解赋能动作生成的视觉-语言-动作模型

提交意见反馈

@FeitengLi: 早上才说：具身智能的智能应该抄 LLM + RL + Agentic 作业这就来了：Agentic VLA 全线碾压头部具身公司的模型 https://x.com/FeitengLi/status/205909864717506193…