GTA-2:从原子工具使用到开放式工作流的通用工具Agent基准测试

Hugging Face Daily Papers 论文

摘要

GTA-2 引入了一个分层基准,用于评估通用工具Agent在原子工具使用和开放式工作流中的表现,揭示了显著的能力鸿沟:前沿模型在复杂任务上仅取得14.39%的成功率,尽管在原子任务上表现尚可。

通用Agent的发展需要从执行简单指令转向完成复杂的、真实世界的生产力工作流。然而,当前的工具使用基准与真实需求仍存在偏差,依赖于AI生成的查询、虚拟工具和有限的系统级协调。为此,我们提出了 GTA-2,一个面向通用工具Agent(GTA)的分层基准,涵盖原子工具使用和开放式工作流。该基准基于真实世界的真实性,利用真实用户查询、已部署的工具和多模态上下文。 (i)*GTA-Atomic*,继承自我们之前的 GTA 基准,评估短期、封闭式工具使用的精确性。 (ii)*GTA-Workflow* 引入了长期、开放式任务,用于真实的端到端完成。 为了评估开放式交付物,我们提出了一种基于递归检查点的评估机制,将目标分解为可验证的子目标,从而实现对模型能力和Agent执行框架(即执行工具链)的统一评估。实验揭示出一个显著的能力鸿沟:尽管前沿模型在原子任务上已表现不佳(低于50%),但在工作流上基本失败,顶尖模型仅取得14.39%的成功率。进一步分析表明,检查点引导的反馈可以提升性能,而诸如 Manus 和 OpenClaw 等先进框架则能显著改善工作流的完成情况,突显了执行工具链设计(超越底层模型能力)的重要性。这些发现为开发可靠的个人和专业助手提供了指导。数据集和代码将在 https://github.com/open-compass/GTA 发布。
查看原文
查看缓存全文

缓存时间: 2026/04/20 08:27

论文页面 - GTA-2:从原子工具使用到开放式工作流程的通用工具智能体基准测试

来源:https://huggingface.co/papers/2604.15715 发布日期:4月17日

·

由 https://huggingface.co/Jize1 提交

Jize (https://huggingface.co/Jize1)于 4月20日

摘要

通用工具智能体在真实世界工作流程完成方面面临着重大挑战,性能从原子任务急剧下降到复杂的开放式工作流程,这凸显了需要改进超越模型能力的执行框架。

通用智能体 (https://huggingface.co/papers?q=general-purpose%20agents) 的发展需要从执行简单指令转向完成复杂的真实世界生产力工作流程。然而,目前的工具使用基准 (https://huggingface.co/papers?q=tool-use%20benchmarks) 仍与现实需求脱节,依赖 AI 生成的查询、虚拟工具以及有限的系统级协调。为解决这一问题,我们提出了 GTA-2,一个针对通用工具智能体 (GTA) 的分层基准,涵盖原子工具使用 (https://huggingface.co/papers?q=atomic%20tool%20use) 和开放式工作流程 (https://huggingface.co/papers?q=open-ended%20workflows)。它建立在真实世界真实性 (https://huggingface.co/papers?q=real-world%20authenticity) 之上,利用真实的用户查询、已部署的工具和多模态上下文。(i) GTA-Atomic 继承自我们之前的 GTA 基准,评估短周期、封闭式工具使用的精确度。(ii) GTA-Workflow 引入长周期、开放式任务,用于真实的端到端完成。为了评估开放式交付物,我们提出了一种基于递归检查点的评估 (https://huggingface.co/papers?q=recursive%20checkpoint-based%20evaluation) 机制,将目标分解为可验证的子目标,从而实现对模型能力 (https://huggingface.co/papers?q=model%20capabilities) 和智能体执行框架 (https://huggingface.co/papers?q=agent%20execution%20frameworks)(即执行工具 (https://huggingface.co/papers?q=execution%20harnesses))的统一评估。实验结果揭示了显著的能力断层:前沿模型在原子任务上已表现挣扎(低于 50%),而在工作流程上则基本失败,最佳模型仅取得 14.39% 的成功率。进一步分析表明,检查点引导的反馈能提升性能,而诸如 Manus 和 OpenClaw 等先进框架则显著增强了工作流程完成度,凸显了执行工具设计在底层模型能力之外的重要性。这些发现为开发可靠的个人及专业助手提供了指导。数据集和代码将发布于 https://github.com/open-compass/GTA。

查看 arXiv 页面 (https://arxiv.org/abs/2604.15715)查看 PDF (https://arxiv.org/pdf/2604.15715)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.15715)

在您的智能体中获取这篇论文:

hf papers read 2604.15715

没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型的 README.md 中引用 arxiv.org/abs/2604.15715 即可从本页链接它。

引用此论文的数据集0

没有数据集链接此论文

在数据集的 README.md 中引用 arxiv.org/abs/2604.15715 即可从本页链接它。

引用此论文的 Spaces0

没有 Space 链接此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2604.15715 即可从本页链接它。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection) 即可从本页链接它。

相似文章

WorkBench再访:两年后的工作场所智能体

arXiv cs.CL

本文在WorkBench基准发布两年后再次对其进行评估,显示当前最佳智能体(Claude Opus 4.8)能完成89%的任务,且仅有2.5%的有害副作用,而2024年GPT-4的完成率为43%,有害率为26%。研究发现,能力与安全性同步提升,开放权重模型大幅降低了成本,但一些基本错误仍然存在。