VoLo: 开放词汇长程操作的物理编排器
摘要
VoLoAgent 将视觉语言模型与机器人能力相结合,用于开放词汇长程操作任务,引入了一个物理编排器,该编排器使用可中断工具进行规划、监控和恢复,并提出了一个名为 RoboVoLo 的基准用于评估。
查看缓存全文
缓存时间: 2026/06/10 05:45
论文页面 - VoLo: 面向开放词汇长期操控的物理编排器
来源:https://huggingface.co/papers/2606.07723 作者:
,
,
,
,
,
,
,
,
,
,
摘要
VoLoAgent 通过将视觉-语言模型与机器人能力相结合,为开放词汇的长期操控任务实现物理编排。
开放词汇 (https://huggingface.co/papers?q=Open-vocabulary) 长期操控 (https://huggingface.co/papers?q=long-horizon%20manipulation) 要求机器人能够推理灵活指令和复杂多物体场景,同时自适应地规划、执行、监控并从失败中恢复。我们通过一个闭环智能体来应对这些需求,其中 VLM 将异构机器人能力 (https://huggingface.co/papers?q=robot%20capabilities) 编排为可中断工具 (https://huggingface.co/papers?q=interruptible%20tools) 。与虚拟 AI 智能体不同,在物理世界中,决策、动作和工具调用的时机至关重要,因为世界不会暂停等待推理。我们将这一设定称为物理编排 (https://huggingface.co/papers?q=Physical%20Orchestration) ,并提出 VoLoAgent——一种能够规划、监控和恢复的 VLM,它将 VLA (https://huggingface.co/papers?q=VLA) / WAM (https://huggingface.co/papers?q=WAM) 视为一种可中断工具,在中期运行中与视觉模型和动作原语一起引导。为了评估这些长期能力,我们引入了 RoboVoLo,这是一个高保真基准,涵盖开放词汇 (https://huggingface.co/papers?q=open-vocabulary) 长期操控 (https://huggingface.co/papers?q=long-horizon%20manipulation) 中的常识、记忆/状态追踪、复杂引用和世界知识,并提供任务级成功率 (https://huggingface.co/papers?q=task-level%20success) 和失败模式诊断 (https://huggingface.co/papers?q=failure-mode%20diagnostics) 。实验表明,VoLoAgent 显著优于单一的 VLA (https://huggingface.co/papers?q=VLA) / VLM 或基于工具的系统,并在真实机器人实验中得到了验证。项目页面:https://chicychen.github.io/VoLo/
查看 arXiv 页面 (https://arxiv.org/abs/2606.07723) 查看 PDF (https://arxiv.org/pdf/2606.07723) 项目页面 (https://chicychen.github.io/VoLo/) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.07723)
在您的智能体中获取此论文:
hf papers read 2606\.07723
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
0
没有模型链接此论文
在模型的 README.md 中引用 arxiv.org/abs/2606.07723 以从此页面链接。
引用此论文的数据集0
0
没有数据集链接此论文
在数据集的 README.md 中引用 arxiv.org/abs/2606.07723 以从此页面链接。
引用此论文的 Spaces0
0
没有 Space 链接此论文
在 Space 的 README.md 中引用 arxiv.org/abs/2606.07723 以从此页面链接。
包含此论文的收藏集0
0
没有收藏集包含此论文
将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
HiVLA: 一种以视觉接地为中心的分层具身操作系统
HiVLA 提出了一种分层视觉-语言-动作框架,通过使用扩散变换器动作专家将语义规划与运动控制解耦,从而改进机器人操作。该系统结合了用于任务分解和视觉接地的VLM规划器与使用级联交叉注意力的专用DiT动作专家,在长周期任务和细粒度操作方面尤其优于端到端基线。
Hy-Embodied-0.5-VLA: 从视觉-语言-动作模型到真实世界机器人学习栈
HyVLA-0.5 是一个端到端机器人学习系统,整合了数据收集、模型设计、预训练、微调和强化学习,用于真实世界部署。
AffordanceVLA: 一种通过可供性感知理解赋能动作生成的视觉-语言-动作模型
AffordanceVLA引入了一个统一框架,利用结构化可供性预测作为中间表示,结合视觉-语言模型和混合Transformer架构,以改进机器人操作中的感知-动作映射。
IntentVLA: 针对混叠机器人操作的短期意图建模
IntentVLA 是一种历史条件视觉-语言-动作框架,通过从视觉观察中编码短期意图来提高机器人模仿学习的稳定性,解决了部分可观察性和模糊观察带来的挑战。它还引入了 AliasBench,这是一个用于评估此类方法的模糊感知基准。
Qwen-VLA:统一跨任务、环境与机器人具身形态的视觉-语言-动作建模
Qwen-VLA是一个面向具身决策的统一视觉-语言-动作模型,整合了不同机器人平台上的操作、导航与轨迹预测。它采用基于DiT的动作解码器和具身感知提示条件,实现了强性能与分布外泛化。