Guava:一种有效且通用的具身操作框架
摘要
Guava 是一个用于具身工具使用的框架,它将高级推理与外部模块相结合,使紧凑模型能够以极少的训练数据执行复杂的操作任务。实验表明,其性能可与前沿专有模型相媲美。
查看缓存全文
缓存时间: 2026/06/18 03:55
论文页面 - Guava: 面向具身操作的高效通用框架
来源: https://huggingface.co/papers/2606.18363
摘要
用于具身工具使用的框架结合了高层推理与外部模块,使紧凑模型能够以最少训练数据完成复杂操作任务。
在大量视觉-语言数据上训练的语言模型已展现出对于具身智能体的强大潜力 (https://huggingface.co/papers?q=embodied%20agents)。通过具身工具使用来驾驭模型,为端到端视觉-语言-动作系统提供了一种有前景的替代方案:将高层推理与外部模块(用于感知、规划和控制)相结合。然而,什么构成了具身操作的有效框架,以及这种框架能在多大程度上解锁各类推理模型的具身能力,目前仍不清楚。在本工作中,我们提出 Guava,一种通过系统探索智能体工作流 (https://huggingface.co/papers?q=agent%20workflows)、动作空间 (https://huggingface.co/papers?q=action%20spaces) 和观测空间 (https://huggingface.co/papers?q=observation%20spaces) 设计空间而开发的具身工具使用框架。我们的研究识别出高效具身智能体的三个关键要素:迭代感知-推理-动作循环 (https://huggingface.co/papers?q=iterative%20perception-reasoning-action%20loops)、语义动作抽象 (https://huggingface.co/papers?q=semantic%20action%20abstractions) 和多模态观测 (https://huggingface.co/papers?q=multimodal%20observations)。为了理解这些设计原则是否对小模型也具通用性,我们开发了一条端到端训练 (https://huggingface.co/papers?q=end-to-end%20training) 流水线,利用完全在模拟中收集的不到 2K 条轨迹,将具身操作 (https://huggingface.co/papers?q=embodied%20manipulation) 能力蒸馏到一个 4B 开源模型中。在模拟和真实环境中的实验结果均显示,其性能可与前沿专有模型媲美,同时对未见物体、新颖指令和长周期任务展现出强大的泛化能力。结果表明,一个精心设计的框架可以作为可扩展、模型无关的具身操作 (https://huggingface.co/papers?q=embodied%20manipulation) 接口,使紧凑开源模型能够以最少训练数据展现出强大的涌现具身能力。
查看arXiv页面 (https://arxiv.org/abs/2606.18363)查看PDF (https://arxiv.org/pdf/2606.18363)项目页面 (https://guava-harness.github.io/)添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2606.18363)
在您的智能体中获取本文:
hf papers read 2606\.18363
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用本论文的模型 0
暂无链接本论文的模型
将 arxiv.org/abs/2606.18363 引用到模型 README.md 中,即可从此页面链接。
引用本论文的数据集 0
暂无链接本论文的数据集
将 arxiv.org/abs/2606.18363 引用到数据集 README.md 中,即可从此页面链接。
引用本论文的 Spaces 0
暂无链接本论文的 Space
将 arxiv.org/abs/2606.18363 引用到 Space README.md 中,即可从此页面链接。
包含本论文的收藏集 1
相似文章
最好的智能代理工具会这样做……
作者分享了构建高效智能代理工具的见解:最好的工具最大限度地减少对大语言模型(LLM)在琐碎任务上的依赖,将其保留用于复杂推理,从而将真正的代理工具与简单的包装器区分开来。
人类通用抓取
一种流匹配模型可从RGB-D图像生成多样化的人类抓取动作,实现零样本机器人抓取,性能优于现有方法。该模型在大规模自我中心数据集上训练,在新基准测试中显著超越当前最先进的基线方法。
HarnessX:可组合、自适应且可演进的智能体夹具工坊
HarnessX 是一个为可组合、自适应且可演进的人工智能智能体夹具打造的工坊,它利用组合原语和轨迹驱动演化来提升智能体性能。在五项基准测试中,它平均提升了 +14.5%(最高达 +44.0%),表明运行时接口演化是模型规模扩展之外的一个互补杠杆。
HiVLA: 一种以视觉接地为中心的分层具身操作系统
HiVLA 提出了一种分层视觉-语言-动作框架,通过使用扩散变换器动作专家将语义规划与运动控制解耦,从而改进机器人操作。该系统结合了用于任务分解和视觉接地的VLM规划器与使用级联交叉注意力的专用DiT动作专家,在长周期任务和细粒度操作方面尤其优于端到端基线。
RewardHarness:自演进的代理式后训练框架
RewardHarness 是一个用于后训练的自演进代理框架,通过迭代优化工具和技能库来替代大规模偏好标注,在图像编辑评估基准上的表现优于 GPT-5。