Guava：一种有效且通用的具身操作框架

Hugging Face Daily Papers 2026/06/16 00:00 论文

embodied-manipulation tool-use agent-workflows reasoning-models open-source simulation distillation

摘要

Guava 是一个用于具身工具使用的框架，它将高级推理与外部模块相结合，使紧凑模型能够以极少的训练数据执行复杂的操作任务。实验表明，其性能可与前沿专有模型相媲美。

在大规模视觉-语言数据上训练的语言模型已展现出作为具身代理的强大潜力。通过具身工具使用来驾驭模型，为端到端的视觉-语言-动作系统提供了一种有前景的替代方案，它将高级推理与感知、规划和控制的外部模块相结合。然而，目前尚不清楚什么构成有效的具身操作框架，以及这种框架能在多大程度上解锁广泛推理模型的具身能力。在这项工作中，我们提出了 Guava，这是一个通过系统探索代理工作流、动作空间和观察空间的设计空间而开发的具身工具使用框架。我们的研究识别出有效具身代理的三个关键要素：迭代感知-推理-动作循环、语义动作抽象和多模态观察。为了理解这些设计原则是否甚至对小模型也具有普适性，我们开发了一个端到端的训练流程，利用完全在模拟中收集的少于 2K 条轨迹，将具身操作能力蒸馏到一个 4B 开源模型中。在模拟和真实环境中的实验结果表明，其性能可与前沿专有模型相媲美，同时展现出对未见物体、新颖指令和长期任务的强大泛化能力。结果表明，精心设计的框架可以作为一个可扩展、模型无关的具身操作接口，使紧凑的开源模型在极少的训练数据下就能涌现出强大的具身能力。

查看原文

查看缓存全文

缓存时间: 2026/06/18 03:55

论文页面 - Guava: 面向具身操作的高效通用框架

来源: https://huggingface.co/papers/2606.18363

摘要

用于具身工具使用的框架结合了高层推理与外部模块，使紧凑模型能够以最少训练数据完成复杂操作任务。

在大量视觉-语言数据上训练的语言模型已展现出对于具身智能体的强大潜力 (https://huggingface.co/papers?q=embodied%20agents)。通过具身工具使用来驾驭模型，为端到端视觉-语言-动作系统提供了一种有前景的替代方案：将高层推理与外部模块（用于感知、规划和控制）相结合。然而，什么构成了具身操作的有效框架，以及这种框架能在多大程度上解锁各类推理模型的具身能力，目前仍不清楚。在本工作中，我们提出 Guava，一种通过系统探索智能体工作流 (https://huggingface.co/papers?q=agent%20workflows)、动作空间 (https://huggingface.co/papers?q=action%20spaces) 和观测空间 (https://huggingface.co/papers?q=observation%20spaces) 设计空间而开发的具身工具使用框架。我们的研究识别出高效具身智能体的三个关键要素：迭代感知-推理-动作循环 (https://huggingface.co/papers?q=iterative%20perception-reasoning-action%20loops)、语义动作抽象 (https://huggingface.co/papers?q=semantic%20action%20abstractions) 和多模态观测 (https://huggingface.co/papers?q=multimodal%20observations)。为了理解这些设计原则是否对小模型也具通用性，我们开发了一条端到端训练 (https://huggingface.co/papers?q=end-to-end%20training) 流水线，利用完全在模拟中收集的不到 2K 条轨迹，将具身操作 (https://huggingface.co/papers?q=embodied%20manipulation) 能力蒸馏到一个 4B 开源模型中。在模拟和真实环境中的实验结果均显示，其性能可与前沿专有模型媲美，同时对未见物体、新颖指令和长周期任务展现出强大的泛化能力。结果表明，一个精心设计的框架可以作为可扩展、模型无关的具身操作 (https://huggingface.co/papers?q=embodied%20manipulation) 接口，使紧凑开源模型能够以最少训练数据展现出强大的涌现具身能力。

查看arXiv页面 (https://arxiv.org/abs/2606.18363)查看PDF (https://arxiv.org/pdf/2606.18363)项目页面 (https://guava-harness.github.io/)添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2606.18363)

在您的智能体中获取本文：

hf papers read 2606\.18363

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本论文的模型 0

暂无链接本论文的模型

将 arxiv.org/abs/2606.18363 引用到模型 README.md 中，即可从此页面链接。

引用本论文的数据集 0

暂无链接本论文的数据集

将 arxiv.org/abs/2606.18363 引用到数据集 README.md 中，即可从此页面链接。

引用本论文的 Spaces 0

暂无链接本论文的 Space

将 arxiv.org/abs/2606.18363 引用到 Space README.md 中，即可从此页面链接。

Guava：一种有效且通用的具身操作框架

论文页面 - Guava: 面向具身操作的高效通用框架

摘要

引用本论文的模型 0

引用本论文的数据集 0

引用本论文的 Spaces 0

包含本论文的收藏集 1

相似文章

最好的智能代理工具会这样做……

人类通用抓取

HarnessX：可组合、自适应且可演进的智能体夹具工坊

HiVLA: 一种以视觉接地为中心的分层具身操作系统

RewardHarness：自演进的代理式后训练框架

提交意见反馈