GTA-2:从原子工具使用到开放式工作流的通用工具Agent基准测试
摘要
GTA-2 引入了一个分层基准,用于评估通用工具Agent在原子工具使用和开放式工作流中的表现,揭示了显著的能力鸿沟:前沿模型在复杂任务上仅取得14.39%的成功率,尽管在原子任务上表现尚可。
查看缓存全文
缓存时间: 2026/04/20 08:27
论文页面 - GTA-2:从原子工具使用到开放式工作流程的通用工具智能体基准测试
来源:https://huggingface.co/papers/2604.15715 发布日期:4月17日
·
由 https://huggingface.co/Jize1 提交
Jize (https://huggingface.co/Jize1)于 4月20日
摘要
通用工具智能体在真实世界工作流程完成方面面临着重大挑战,性能从原子任务急剧下降到复杂的开放式工作流程,这凸显了需要改进超越模型能力的执行框架。
通用智能体 (https://huggingface.co/papers?q=general-purpose%20agents) 的发展需要从执行简单指令转向完成复杂的真实世界生产力工作流程。然而,目前的工具使用基准 (https://huggingface.co/papers?q=tool-use%20benchmarks) 仍与现实需求脱节,依赖 AI 生成的查询、虚拟工具以及有限的系统级协调。为解决这一问题,我们提出了 GTA-2,一个针对通用工具智能体 (GTA) 的分层基准,涵盖原子工具使用 (https://huggingface.co/papers?q=atomic%20tool%20use) 和开放式工作流程 (https://huggingface.co/papers?q=open-ended%20workflows)。它建立在真实世界真实性 (https://huggingface.co/papers?q=real-world%20authenticity) 之上,利用真实的用户查询、已部署的工具和多模态上下文。(i) GTA-Atomic 继承自我们之前的 GTA 基准,评估短周期、封闭式工具使用的精确度。(ii) GTA-Workflow 引入长周期、开放式任务,用于真实的端到端完成。为了评估开放式交付物,我们提出了一种基于递归检查点的评估 (https://huggingface.co/papers?q=recursive%20checkpoint-based%20evaluation) 机制,将目标分解为可验证的子目标,从而实现对模型能力 (https://huggingface.co/papers?q=model%20capabilities) 和智能体执行框架 (https://huggingface.co/papers?q=agent%20execution%20frameworks)(即执行工具 (https://huggingface.co/papers?q=execution%20harnesses))的统一评估。实验结果揭示了显著的能力断层:前沿模型在原子任务上已表现挣扎(低于 50%),而在工作流程上则基本失败,最佳模型仅取得 14.39% 的成功率。进一步分析表明,检查点引导的反馈能提升性能,而诸如 Manus 和 OpenClaw 等先进框架则显著增强了工作流程完成度,凸显了执行工具设计在底层模型能力之外的重要性。这些发现为开发可靠的个人及专业助手提供了指导。数据集和代码将发布于 https://github.com/open-compass/GTA。
查看 arXiv 页面 (https://arxiv.org/abs/2604.15715)查看 PDF (https://arxiv.org/pdf/2604.15715)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.15715)
在您的智能体中获取这篇论文:
hf papers read 2604.15715
没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接此论文
在模型的 README.md 中引用 arxiv.org/abs/2604.15715 即可从本页链接它。
引用此论文的数据集0
没有数据集链接此论文
在数据集的 README.md 中引用 arxiv.org/abs/2604.15715 即可从本页链接它。
引用此论文的 Spaces0
没有 Space 链接此论文
在 Space 的 README.md 中引用 arxiv.org/abs/2604.15715 即可从本页链接它。
包含此论文的收藏集0
没有收藏集包含此论文
将此论文添加到收藏集 (https://huggingface.co/new-collection) 即可从本页链接它。
相似文章
OSWorld2.0:长周期真实世界任务中计算机使用代理的基准评测
OSWorld 2.0 是一个新的基准测试,用于评估计算机使用代理在 108 个长周期真实工作流程上的表现。当前像 Claude Opus 4.8 和 GPT-5.5 这样的代理完成率较低,凸显了它们在处理复杂多步骤任务时的显著局限性。
超越函数调用:在工具环境不可靠性下对工具使用代理进行基准测试
介绍ToolBench-X,这是一个基准测试,用于评估各种工具环境可靠性隐患下的大语言模型代理,揭示了与干净环境相比性能上的显著差距。
TOBench:面向真实世界工具使用智能体的任务导向全模态基准
TOBench是一个新的基准测试,用于评估AI智能体在真实世界、任务导向的工具使用中的表现,涉及多模态输入和闭环验证。实验表明,像Qwen 3.5 Plus这样的顶级模型仅达到41%的成功率,远低于94%的人类基准,凸显了显著的差距。
WorkBench再访:两年后的工作场所智能体
本文在WorkBench基准发布两年后再次对其进行评估,显示当前最佳智能体(Claude Opus 4.8)能完成89%的任务,且仅有2.5%的有害副作用,而2024年GPT-4的完成率为43%,有害率为26%。研究发现,能力与安全性同步提升,开放权重模型大幅降低了成本,但一些基本错误仍然存在。
它是否具备足够的代理能力?使用你自己的工具对开放模型进行基准测试
这篇博客文章介绍了一种基准测试方法,用于评估开放模型在代理编程任务上的表现,不仅关注准确性,还关注代理过程的效率。它提供了一个使用 pi coding agent 的可定制工具框架,并在不同模型和库版本上进行测试。