VoLo: 开放词汇长程操作的物理编排器

Hugging Face Daily Papers 2026/06/05 00:00 论文

open-vocabulary long-horizon robot-manipulation vision-language-model orchestration benchmark

摘要

VoLoAgent 将视觉语言模型与机器人能力相结合，用于开放词汇长程操作任务，引入了一个物理编排器，该编排器使用可中断工具进行规划、监控和恢复，并提出了一个名为 RoboVoLo 的基准用于评估。

开放词汇长程操作要求机器人能够对灵活的指令和复杂的多目标场景进行推理，同时自适应地规划、执行、监控并从故障中恢复。我们通过一个闭环智能体来满足这些需求，其中视觉语言模型（VLM）将异构机器人能力编排为可中断工具。与虚拟AI智能体不同，在物理世界中决策、动作和工具调用的时机至关重要，因为世界不会暂停等待推理。我们将这种设定称为物理编排，并提出了VoLoAgent——一个VLM，它通过将VLA/WAM视为可中断工具，在模型运行过程中与视觉模型和动作原语一起引导，从而实现规划、监控和恢复。为了评估这些长程能力，我们引入了RoboVoLo，这是一个高保真基准，用于评估开放词汇长程操作中的常识、记忆/状态追踪、复杂指代和世界知识，并提供任务级成功和故障模式诊断。实验表明，VoLoAgent显著优于单个VLA/VLM或基于工具的系统，并且在真实机器人实验中得到了验证。项目页面：https://chicychen.github.io/VoLo/

查看原文

查看缓存全文

缓存时间: 2026/06/10 05:45

论文页面 - VoLo: 面向开放词汇长期操控的物理编排器

来源：https://huggingface.co/papers/2606.07723 作者：

摘要

VoLoAgent 通过将视觉-语言模型与机器人能力相结合，为开放词汇的长期操控任务实现物理编排。

开放词汇 (https://huggingface.co/papers?q=Open-vocabulary) 长期操控 (https://huggingface.co/papers?q=long-horizon%20manipulation) 要求机器人能够推理灵活指令和复杂多物体场景，同时自适应地规划、执行、监控并从失败中恢复。我们通过一个闭环智能体来应对这些需求，其中 VLM 将异构机器人能力 (https://huggingface.co/papers?q=robot%20capabilities) 编排为可中断工具 (https://huggingface.co/papers?q=interruptible%20tools) 。与虚拟 AI 智能体不同，在物理世界中，决策、动作和工具调用的时机至关重要，因为世界不会暂停等待推理。我们将这一设定称为物理编排 (https://huggingface.co/papers?q=Physical%20Orchestration) ，并提出 VoLoAgent——一种能够规划、监控和恢复的 VLM，它将 VLA (https://huggingface.co/papers?q=VLA) / WAM (https://huggingface.co/papers?q=WAM) 视为一种可中断工具，在中期运行中与视觉模型和动作原语一起引导。为了评估这些长期能力，我们引入了 RoboVoLo，这是一个高保真基准，涵盖开放词汇 (https://huggingface.co/papers?q=open-vocabulary) 长期操控 (https://huggingface.co/papers?q=long-horizon%20manipulation) 中的常识、记忆/状态追踪、复杂引用和世界知识，并提供任务级成功率 (https://huggingface.co/papers?q=task-level%20success) 和失败模式诊断 (https://huggingface.co/papers?q=failure-mode%20diagnostics) 。实验表明，VoLoAgent 显著优于单一的 VLA (https://huggingface.co/papers?q=VLA) / VLM 或基于工具的系统，并在真实机器人实验中得到了验证。项目页面：https://chicychen.github.io/VoLo/

查看 arXiv 页面 (https://arxiv.org/abs/2606.07723) 查看 PDF (https://arxiv.org/pdf/2606.07723) 项目页面 (https://chicychen.github.io/VoLo/) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.07723)

在您的智能体中获取此论文：

hf papers read 2606\.07723

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型的 README.md 中引用 arxiv.org/abs/2606.07723 以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集的 README.md 中引用 arxiv.org/abs/2606.07723 以从此页面链接。

引用此论文的 Spaces0

没有 Space 链接此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2606.07723 以从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

VoLo: 开放词汇长程操作的物理编排器

论文页面 - VoLo: 面向开放词汇长期操控的物理编排器

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏集0

相似文章

HiVLA: 一种以视觉接地为中心的分层具身操作系统

Hy-Embodied-0.5-VLA: 从视觉-语言-动作模型到真实世界机器人学习栈

AffordanceVLA: 一种通过可供性感知理解赋能动作生成的视觉-语言-动作模型

IntentVLA: 针对混叠机器人操作的短期意图建模

Qwen-VLA：统一跨任务、环境与机器人具身形态的视觉-语言-动作建模

提交意见反馈