Guava:一种有效且通用的具身操作框架

Hugging Face Daily Papers 论文

摘要

Guava 是一个用于具身工具使用的框架,它将高级推理与外部模块相结合,使紧凑模型能够以极少的训练数据执行复杂的操作任务。实验表明,其性能可与前沿专有模型相媲美。

在大规模视觉-语言数据上训练的语言模型已展现出作为具身代理的强大潜力。通过具身工具使用来驾驭模型,为端到端的视觉-语言-动作系统提供了一种有前景的替代方案,它将高级推理与感知、规划和控制的外部模块相结合。然而,目前尚不清楚什么构成有效的具身操作框架,以及这种框架能在多大程度上解锁广泛推理模型的具身能力。在这项工作中,我们提出了 Guava,这是一个通过系统探索代理工作流、动作空间和观察空间的设计空间而开发的具身工具使用框架。我们的研究识别出有效具身代理的三个关键要素:迭代感知-推理-动作循环、语义动作抽象和多模态观察。为了理解这些设计原则是否甚至对小模型也具有普适性,我们开发了一个端到端的训练流程,利用完全在模拟中收集的少于 2K 条轨迹,将具身操作能力蒸馏到一个 4B 开源模型中。在模拟和真实环境中的实验结果表明,其性能可与前沿专有模型相媲美,同时展现出对未见物体、新颖指令和长期任务的强大泛化能力。结果表明,精心设计的框架可以作为一个可扩展、模型无关的具身操作接口,使紧凑的开源模型在极少的训练数据下就能涌现出强大的具身能力。
查看原文
查看缓存全文

缓存时间: 2026/06/18 03:55

论文页面 - Guava: 面向具身操作的高效通用框架

来源: https://huggingface.co/papers/2606.18363

摘要

用于具身工具使用的框架结合了高层推理与外部模块,使紧凑模型能够以最少训练数据完成复杂操作任务。

在大量视觉-语言数据上训练的语言模型已展现出对于具身智能体的强大潜力 (https://huggingface.co/papers?q=embodied%20agents)。通过具身工具使用来驾驭模型,为端到端视觉-语言-动作系统提供了一种有前景的替代方案:将高层推理与外部模块(用于感知、规划和控制)相结合。然而,什么构成了具身操作的有效框架,以及这种框架能在多大程度上解锁各类推理模型的具身能力,目前仍不清楚。在本工作中,我们提出 Guava,一种通过系统探索智能体工作流 (https://huggingface.co/papers?q=agent%20workflows)、动作空间 (https://huggingface.co/papers?q=action%20spaces) 和观测空间 (https://huggingface.co/papers?q=observation%20spaces) 设计空间而开发的具身工具使用框架。我们的研究识别出高效具身智能体的三个关键要素:迭代感知-推理-动作循环 (https://huggingface.co/papers?q=iterative%20perception-reasoning-action%20loops)、语义动作抽象 (https://huggingface.co/papers?q=semantic%20action%20abstractions) 和多模态观测 (https://huggingface.co/papers?q=multimodal%20observations)。为了理解这些设计原则是否对小模型也具通用性,我们开发了一条端到端训练 (https://huggingface.co/papers?q=end-to-end%20training) 流水线,利用完全在模拟中收集的不到 2K 条轨迹,将具身操作 (https://huggingface.co/papers?q=embodied%20manipulation) 能力蒸馏到一个 4B 开源模型中。在模拟和真实环境中的实验结果均显示,其性能可与前沿专有模型媲美,同时对未见物体、新颖指令和长周期任务展现出强大的泛化能力。结果表明,一个精心设计的框架可以作为可扩展、模型无关的具身操作 (https://huggingface.co/papers?q=embodied%20manipulation) 接口,使紧凑开源模型能够以最少训练数据展现出强大的涌现具身能力。

查看arXiv页面 (https://arxiv.org/abs/2606.18363)查看PDF (https://arxiv.org/pdf/2606.18363)项目页面 (https://guava-harness.github.io/)添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2606.18363)

在您的智能体中获取本文:

hf papers read 2606\.18363

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本论文的模型 0

暂无链接本论文的模型

将 arxiv.org/abs/2606.18363 引用到模型 README.md 中,即可从此页面链接。

引用本论文的数据集 0

暂无链接本论文的数据集

将 arxiv.org/abs/2606.18363 引用到数据集 README.md 中,即可从此页面链接。

引用本论文的 Spaces 0

暂无链接本论文的 Space

将 arxiv.org/abs/2606.18363 引用到 Space README.md 中,即可从此页面链接。

包含本论文的收藏集 1

相似文章

最好的智能代理工具会这样做……

Reddit r/AI_Agents

作者分享了构建高效智能代理工具的见解:最好的工具最大限度地减少对大语言模型(LLM)在琐碎任务上的依赖,将其保留用于复杂推理,从而将真正的代理工具与简单的包装器区分开来。

人类通用抓取

Hugging Face Daily Papers

一种流匹配模型可从RGB-D图像生成多样化的人类抓取动作,实现零样本机器人抓取,性能优于现有方法。该模型在大规模自我中心数据集上训练,在新基准测试中显著超越当前最先进的基线方法。

HarnessX:可组合、自适应且可演进的智能体夹具工坊

Hugging Face Daily Papers

HarnessX 是一个为可组合、自适应且可演进的人工智能智能体夹具打造的工坊,它利用组合原语和轨迹驱动演化来提升智能体性能。在五项基准测试中,它平均提升了 +14.5%(最高达 +44.0%),表明运行时接口演化是模型规模扩展之外的一个互补杠杆。

HiVLA: 一种以视觉接地为中心的分层具身操作系统

Hugging Face Daily Papers

HiVLA 提出了一种分层视觉-语言-动作框架,通过使用扩散变换器动作专家将语义规划与运动控制解耦,从而改进机器人操作。该系统结合了用于任务分解和视觉接地的VLM规划器与使用级联交叉注意力的专用DiT动作专家,在长周期任务和细粒度操作方面尤其优于端到端基线。