VoLo: 开放词汇长程操作的物理编排器

Hugging Face Daily Papers 论文

摘要

VoLoAgent 将视觉语言模型与机器人能力相结合,用于开放词汇长程操作任务,引入了一个物理编排器,该编排器使用可中断工具进行规划、监控和恢复,并提出了一个名为 RoboVoLo 的基准用于评估。

开放词汇长程操作要求机器人能够对灵活的指令和复杂的多目标场景进行推理,同时自适应地规划、执行、监控并从故障中恢复。我们通过一个闭环智能体来满足这些需求,其中视觉语言模型(VLM)将异构机器人能力编排为可中断工具。与虚拟AI智能体不同,在物理世界中决策、动作和工具调用的时机至关重要,因为世界不会暂停等待推理。我们将这种设定称为物理编排,并提出了VoLoAgent——一个VLM,它通过将VLA/WAM视为可中断工具,在模型运行过程中与视觉模型和动作原语一起引导,从而实现规划、监控和恢复。为了评估这些长程能力,我们引入了RoboVoLo,这是一个高保真基准,用于评估开放词汇长程操作中的常识、记忆/状态追踪、复杂指代和世界知识,并提供任务级成功和故障模式诊断。实验表明,VoLoAgent显著优于单个VLA/VLM或基于工具的系统,并且在真实机器人实验中得到了验证。项目页面:https://chicychen.github.io/VoLo/
查看原文
查看缓存全文

缓存时间: 2026/06/10 05:45

论文页面 - VoLo: 面向开放词汇长期操控的物理编排器

来源:https://huggingface.co/papers/2606.07723 作者:

,

,

,

,

,

,

,

,

,

,

摘要

VoLoAgent 通过将视觉-语言模型与机器人能力相结合,为开放词汇的长期操控任务实现物理编排。

开放词汇 (https://huggingface.co/papers?q=Open-vocabulary) 长期操控 (https://huggingface.co/papers?q=long-horizon%20manipulation) 要求机器人能够推理灵活指令和复杂多物体场景,同时自适应地规划、执行、监控并从失败中恢复。我们通过一个闭环智能体来应对这些需求,其中 VLM 将异构机器人能力 (https://huggingface.co/papers?q=robot%20capabilities) 编排为可中断工具 (https://huggingface.co/papers?q=interruptible%20tools) 。与虚拟 AI 智能体不同,在物理世界中,决策、动作和工具调用的时机至关重要,因为世界不会暂停等待推理。我们将这一设定称为物理编排 (https://huggingface.co/papers?q=Physical%20Orchestration) ,并提出 VoLoAgent——一种能够规划、监控和恢复的 VLM,它将 VLA (https://huggingface.co/papers?q=VLA) / WAM (https://huggingface.co/papers?q=WAM) 视为一种可中断工具,在中期运行中与视觉模型和动作原语一起引导。为了评估这些长期能力,我们引入了 RoboVoLo,这是一个高保真基准,涵盖开放词汇 (https://huggingface.co/papers?q=open-vocabulary) 长期操控 (https://huggingface.co/papers?q=long-horizon%20manipulation) 中的常识、记忆/状态追踪、复杂引用和世界知识,并提供任务级成功率 (https://huggingface.co/papers?q=task-level%20success) 和失败模式诊断 (https://huggingface.co/papers?q=failure-mode%20diagnostics) 。实验表明,VoLoAgent 显著优于单一的 VLA (https://huggingface.co/papers?q=VLA) / VLM 或基于工具的系统,并在真实机器人实验中得到了验证。项目页面:https://chicychen.github.io/VoLo/

查看 arXiv 页面 (https://arxiv.org/abs/2606.07723) 查看 PDF (https://arxiv.org/pdf/2606.07723) 项目页面 (https://chicychen.github.io/VoLo/) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.07723)

在您的智能体中获取此论文:

hf papers read 2606\.07723

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

0

没有模型链接此论文

在模型的 README.md 中引用 arxiv.org/abs/2606.07723 以从此页面链接。

引用此论文的数据集0

0

没有数据集链接此论文

在数据集的 README.md 中引用 arxiv.org/abs/2606.07723 以从此页面链接。

引用此论文的 Spaces0

0

没有 Space 链接此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2606.07723 以从此页面链接。

包含此论文的收藏集0

0

没有收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

HiVLA: 一种以视觉接地为中心的分层具身操作系统

Hugging Face Daily Papers

HiVLA 提出了一种分层视觉-语言-动作框架,通过使用扩散变换器动作专家将语义规划与运动控制解耦,从而改进机器人操作。该系统结合了用于任务分解和视觉接地的VLM规划器与使用级联交叉注意力的专用DiT动作专家,在长周期任务和细粒度操作方面尤其优于端到端基线。

IntentVLA: 针对混叠机器人操作的短期意图建模

Hugging Face Daily Papers

IntentVLA 是一种历史条件视觉-语言-动作框架,通过从视觉观察中编码短期意图来提高机器人模仿学习的稳定性,解决了部分可观察性和模糊观察带来的挑战。它还引入了 AliasBench,这是一个用于评估此类方法的模糊感知基准。