AgentAtlas:超越LLM代理的结果排行榜

arXiv cs.AI 论文

摘要

本文介绍了AgentAtlas框架,该框架超越仅基于结果的LLM代理排行榜,通过提出六状态控制决策分类法和九类别轨迹故障分类法,更全面地评估代理行为。

arXiv:2605.20530v1 公告类型:新 摘要:大型语言模型代理现在可以操作代码库、浏览器、操作系统、日历、文件和工具生态系统,但用于评估它们的基准测试是分散的:每个基准测试强调不同的度量单位(最终任务成功、工具调用有效性、重复通过一致性、轨迹安全性或攻击鲁棒性)。2024-2025年的一系列工作已达成共识,即单一的准确率列不再是可部署代理的正确比较单位。AgentAtlas通过四个组成部分扩展了这条研究路线:(i)六状态控制决策分类法(行动/询问/拒绝/停止/确认/恢复);(ii)九类别轨迹故障分类法,包含两个正交层次标签(主要错误来源、影响);(iii)一种分类法感知与分类法盲测方法论,用于衡量模型表面能力中有多少来自提示中的监督;(iv)一个基准覆盖审计,将十五个代理基准映射到六个行为轴。为了演示方法论,我们在两种提示模式下运行了一个小型固定的八模型集合(1342个生成项目,四个前沿闭源模型和四个开源模型)。移除显式标签菜单后,每个模型的轨迹准确率下降了14-40个百分点,达到0.54-0.62的紧密下限,无论模型系列如何,且没有单一模型在控制准确率、轨迹诊断和工具上下文效用保留这三个方面全部胜出。我们将这一合成运行视为测量协议演示,而非基准发布。
查看原文
查看缓存全文

缓存时间: 2026/05/22 08:47

# AgentAtlas:超越 LLM 智能体的结果排行榜
来源:https://arxiv.org/html/2605.20530
Parsa Mazaheri 加州大学圣克鲁兹分校 [email protected] & Kasra Mazaheri 麻省理工学院 [email protected]

###### 摘要

大型语言模型智能体现已能够操作代码库、浏览器、操作系统、日历、文件以及各种工具生态,但用于评估它们的基准测试却呈现碎片化:每个基准都强调不同的衡量单位(最终任务成功率、工具调用有效性、多次执行一致性、轨迹安全性或攻击鲁棒性)。2024-2025年的一系列工作(Kapoor 等人,2024 (https://arxiv.org/html/2605.20530#bib.bib13),2025 (https://arxiv.org/html/2605.20530#bib.bib12);Cemri 等人,2025 (https://arxiv.org/html/2605.20530#bib.bib7);Barke 等人,2026 (https://arxiv.org/html/2605.20530#bib.bib5);Fan 等人,2026 (https://arxiv.org/html/2605.20530#bib.bib9))逐渐达成共识:单一的准确率列已不再是衡量可部署智能体的合适比较单位。AgentAtlas 在此工作基础上扩展了四个组成部分:(i) 一个六状态控制决策分类法(Act / Ask / Refuse / Stop / Confirm / Recover);(ii) 一个九类别轨迹失败分类法,带有两个正交层次标签(主要错误来源、影响);(iii) 一种识别分类法与忽略分类法的方法论,用于衡量一个模型有多少表面能力实际上来自于提示中的监督;以及 (iv) 一项基准覆盖审计,将十五个智能体基准映射到六个行为轴。为了演示该方法论,我们在两种提示模式下运行了一个固定的小型八模型集(1342个生成项,包括四个前沿闭源模型和四个开源权重模型)。移除明确的标签菜单后,每个模型的轨迹准确率均下降14-40个百分点,归并到一个紧密的0.54-0.62区间,无论模型族类如何;并且没有单个模型能在控制准确率、轨迹诊断和工具上下文效用保持这三个方面全部胜出。我们将该合成运行视为一次测量协议演示,而非一个基准发布。

AgentAtlas:超越 LLM 智能体的结果排行榜

Parsa Mazaheri 加州大学圣克鲁兹分校 [email protected] Kasra Mazaheri 麻省理工学院 [email protected]

## 1 引言

智能体 LLM 已不再是单纯的对话系统。它们能够浏览、编辑文件、调用 API、操作桌面软件、与用户模拟器交互以及编排外部工具。这使得评估问题在本质上不同于标准问答。聊天机器人可以通过最终响应的正确性来判断;而智能体则必须通过一系列决策和状态变化来评判。同样的最终答案可能可接受也可能不可接受,这取决于智能体是否使用了正确的工具、是否尊重用户约束、是否确认了敏感操作、是否在观察到失败后进行了恢复,以及是否在任务完成时及时停止。

结果基准的进展速度异常之快。从2023年到2026年初,四个典型结果基准(OSWorld、WebArena、GAIA (Mialon 等人,2023 (https://arxiv.org/html/2605.20530#bib.bib19))、WebVoyager (He 等人,2024 (https://arxiv.org/html/2605.20530#bib.bib11)))上的最佳验证成功率均提升了约5-7倍 (OSWorld团队,2026 (https://arxiv.org/html/2605.20530#bib.bib23);web-arena-x,2026 (https://arxiv.org/html/2605.20530#bib.bib26);GAIA benchmark团队,2026 (https://arxiv.org/html/2605.20530#bib.bib10);OpenAI,2025 (https://arxiv.org/html/2605.20530#bib.bib21)),并且五个经过验证的 OSWorld 提交结果目前达到或超过了 72.4% 的人类基线。仅看结果得分已越来越不充分,并且对脚手架敏感。较新的基准家族反而暴露了本分类法旨在绘制的评估差距:τ-bench 报告 passk 衰减,并且在 2026 年 Sierra 总排行榜上,前沿模型在不同 k 值下的排名交替变化——Opus 4.5 在 pass1 (0.70) 上获胜,Qwen3.5 在 pass4 (0.56) 上获胜 (tau-bench 团队,2026 (https://arxiv.org/html/2605.20530#bib.bib25);Yao 等人,2024 (https://arxiv.org/html/2605.20530#bib.bib29));AgentDojo 显示针对性的提示注入攻击成功率从 GPT-4-0125 的 56.3% 下降到 Claude 3.7 Sonnet 的 7.3%,而在遭受攻击下的实用率仍比纯净环境下的实用率低约 11 个百分点 (AgentDojo 团队,2025 (https://arxiv.org/html/2605.20530#bib.bib1);Debenedetti 等人,2024 (https://arxiv.org/html/2605.20530#bib.bib8));AgentRx 定位失败轨迹中的关键失败步骤 (Microsoft Research,2026 (https://arxiv.org/html/2605.20530#bib.bib20));ATBench 评估长时域轨迹安全性 (Li 等人,2026 (https://arxiv.org/html/2605.20530#bib.bib15));MCP 安全基准揭示了新的工具投毒和提示注入攻击面 (Yang 等人,2025 (https://arxiv.org/html/2605.20530#bib.bib28);MCPTox 作者,2025 (https://arxiv.org/html/2605.20530#bib.bib18))。Anthropic 的计算机使用工作以及更广泛的 Claude Code 生态已将智能体编码和 GUI 交互变为了核心的实际用例 (Anthropic,2024a (https://arxiv.org/html/2605.20530#bib.bib2)),而模型上下文协议进一步加速了工具连接式助手 (Anthropic,2024b (https://arxiv.org/html/2605.20530#bib.bib3))。

因此,该领域有很多强有力的组成部分,但却缺少一张共享的蓝图。一个编码基准可能报告已解决问题百分比;一个浏览器基准可能报告功能任务成功率;一个安全基准可能报告攻击成功率;一个轨迹基准可能报告关键步骤定位。这些指标本身没有错,但单独使用时是不完整的。本文引入的分类法旨在作为这些基准家族的统一层。它提出了以下问题:正在测量什么行为?遗漏了什么行为?如果我们只看最终任务成功率,哪些失败会变得不可见?

本文是一篇关于分类法和测量的论文。AgentAtlas 并非旨在取代现有基准或引入新的排行榜;相反,它提供了一个用于控制决策和轨迹失败的紧凑术语表,将该术语表应用于审计现有基准,并演示提示格式和评估轴可以如何改变固定合成评估集上的模型排名。

以下是这些轴决定性影响的一个预览:在模糊的 SWE-bench Verified 任务上采用不确定性感知的询问策略,将整体解决率提升了8.2个百分点(61.2% → 69.4%)(图 D.5 (https://arxiv.org/html/2605.20530#A4.F5));将 τ-bench 从 pass1 切换到 pass4 会重新排序排行榜 (图 2 (https://arxiv.org/html/2605.20530#S5.F2));CCBench 仅通过版本切换就将一个 Claude-Code 部署的得分移动了50个百分点以上 (图 D.3 (https://arxiv.org/html/2605.20530#A4.F3))。

## 2 AgentAtlas 作为分类法与测量研究

AgentAtlas 是一个用于智能体评估的分类法和测量研究。分类法部分定义了两个行为单元——控制决策和轨迹失败——它们横跨现有的智能体基准。测量部分则探讨当这些单元被明确化时,基准结论会如何变化:首先通过对现有基准进行覆盖审计,然后通过一个小型合成演示,比较识别分类法与忽略分类法两种提示方式。

#### 核心主张。

最终任务成功率对于可部署的 LLM 智能体来说是一个不充分的测量单位。一个完整的评估必须将结果正确性与控制决策质量和轨迹质量分离开来。

#### 贡献。

主要贡献是 AgentAtlas:一个用于诊断 LLM 智能体超越最终任务成功率的分类法和测量协议。我们通过四个组成部分来实例化它:

1. 1. 一个用于使用工具的智能体的六状态控制决策分类法(Act / Ask / Refuse / Stop / Confirm / Recover)。
2. 2. 一个九类别轨迹失败分类法,将工具、观察、恢复和安全失败关联到一个单一术语表中。
3. 3. 一项针对15个智能体基准在六个评估轴上的基准覆盖审计,展示了该领域已经测量了哪些行为以及尚未测量哪些行为。
4. 4. 一次集中的经验演示——一个生成的 Control 拆分(684项)、Trajectory 拆分(400项)和 Security 拆分(258项),总计1342项——在一个固定的八模型集(四个前沿闭源模型 + 四个开源权重模型)上进行评估,同时采用识别分类法和忽略分类法两种提示方式(§7 (https://arxiv.org/html/2605.20530#S7))。该集合定位为一个测量协议载体,而非公开的基准发布。

范围特意足够狭窄以便可执行。分类法聚焦于两个核心轴:(i) 控制决策——智能体应该行动、询问、拒绝、停止、确认还是恢复;(ii) 轨迹错误——动作、观察和工具调用的序列是否有效、安全和高效。基准检查表覆盖、MCP/工具安全和记忆/状态失败作为次要轴包含在内,因为它们影响相同的行为。多智能体系统仅在它们提供轨迹数据时被提及,例如 AgentRx 使用的 Magentic-One 轨迹,但并非主要目标。

使用现有论文报告的数据对于分类法和基准审计部分来说是合适的,因为目标是比较评估设计和报告差距。然而,本文并不将所有报告的数字视为直接的模型排名。不同的论文使用不同的智能体、脚手架、工具、提示、超时、预算和评估器。对于我们自己的经验部分,我们在一个受控的生成数据集上运行一组固定的前沿和开放模型。

### 2.1 相对于同期工作的定位

AgentAtlas 在一系列2024-2025年多轴评估工作 (Kapoor 等人,2025 (https://arxiv.org/html/2605.20530#bib.bib12);Cemri 等人,2025 (https://arxiv.org/html/2605.20530#bib.bib7);Kapoor 等人,2024 (https://arxiv.org/html/2605.20530#bib.bib13);Yehudai 等人,2025 (https://arxiv.org/html/2605.20530#bib.bib30);Ma 等人,2024 (https://arxiv.org/html/2605.20530#bib.bib17);Zhuge 等人,2024 (https://arxiv.org/html/2605.20530#bib.bib33)) 的基础上增加了三个部分:(i) 六门控制决策策略,尚无同期工作将其作为一个统一单元进行评分;(ii) 识别分类法与忽略分类法的方法论,用于衡量一个模型的表面能力中有多少来自提示监督;以及 (iii) 十五基准覆盖审计。我们的轨迹分类法采纳了 AgentRx,并增加了两个正交层次扩展(主要错误来源、影响;见 §4.2 (https://arxiv.org/html/2605.20530#S4.SS2))。与 HAL、MAST、AAATM 以及 Yehudai 调查的详细定位见附录 F (https://arxiv.org/html/2605.20530#A6)。

论文其余部分结构如下:§3 (https://arxiv.org/html/2605.20530#S3) 给出了审计所需的基准背景;§4 (https://arxiv.org/html/2605.20530#S4) 定义了 AgentAtlas 分类法;§5 (https://arxiv.org/html/2605.20530#S5) 用已报告结果激发了测量问题;§6 (https://arxiv.org/html/2605.20530#S6) 将分类法应用于基准覆盖;§7 (https://arxiv.org/html/2605.20530#S7) 在一个固定合成集上演示了测量协议。

## 3 背景:基准家族

当前的基准格局可以分为五个家族。编码智能体基准(SWE-bench Verified (SWE-bench 团队 / OpenAI 合作,2024 (https://arxiv.org/html/2605.20530#bib.bib24))、CCBench (CCBench 团队,2026 (https://arxiv.org/html/2605.20530#bib.bib6)))报告真实 GitHub 问题解决或小代码库任务的结果指标。

网络和计算机使用基准(WebArena (Zhou 等人,2023 (https://arxiv.org/html/2605.20530#bib.bib32))、OSWorld (Xie 等人,2024 (https://arxiv.org/html/2605.20530#bib.bib27)))在交互式数字环境中评估智能体。从2023年到2026年初,OSWorld 上的人类差距已被逆转(前五名运行结果为 73.1-82.6%,达到或超过 72.4% 的人类基线),在 WebArena / GAIA 上已缩小到人类水平4个百分点以内。在这个前沿领域,主要的混淆因素是脚手架敏感性:agent-s3 配合 GPT-5,在 OSWorld 上仅通过将单次尝试切换为最优10次,得分就从 65.6% 提高到 69.9%;而 Anthropic 的 Claude-Code 栈本身在四个版本中跨越了 CCBench 上 50 个百分点的范围(图 D.3 (https://arxiv.org/html/2605.20530#A4.F3))。仅看结果得分越来越衡量的是智能体系统工程技术而非 LLM 本身。

工具使用基准涵盖 API 和用户工具交互。API-Bank (Li 等人,2023 (https://arxiv.org/html/2605.20530#bib.bib14)) 提供了 73 个工具和 314 个对话;τ-bench 报告 Pass1 到 Pass4 以隔离一致性而非首次尝试成功率;ToolSandbox (Lu 等人,2024 (https://arxiv.org/html/2605.20530#bib.bib16)) 增加了有状态执行、用户模拟器和动态里程碑评估。

安全基准探测对抗性工具/上下文设置。AgentDojo 包含 97 个任务和 629 个提示注入案例;MCPSecBench 识别出跨四个 MCP 表面的 17 种攻击类型;MCPTox 评估实时 MCP 服务器上的工具投毒。

轨迹诊断基准针对最终成功率指标的局限性。AgentRx 发布了 115 条手动标注的失败轨迹,附带九类别分类法;ATBench 提供了 1,000 条长时域轨迹,平衡安全与不安全;AgentProcessBench 提供了 1,000 条轨迹,带有 8,509 步标注。它们专注于轨迹诊断,而非控制决策和基准覆盖差距的通用蓝图。§4 (https://arxiv.org/html/2605.20530#S4) 介绍了控制轴和轨迹轴,§5 (https://arxiv.org/html/2605.20530#S5) 综合了现有数字,§6 (https://arxiv.org/html/2605.20530#S6) 审计了哪些基准测量了哪个轴。

列出每个基准的主要单位、当前最高得分和主要轴的简洁参考卡片见附录 A (https://arxiv.org/html/2605.20530#A1)(表格 A.2 (https://arxiv.org/html/2605.20530#A1.T2))。

## 4 AgentAtlas 分类法

### 4.1 控制决策轴

控制决策轴是主要的新组织术语表。许多现有基准隐含了这些行为,但并未明确对其进行评分。据我们所知,尚无前期工作将此六门分解形式化为一个单一的决策策略分类法;每门的前期工作以及与 HAL、MAST、AgentRx 和 AgentDojo 的关系总结于附录 F (https://arxiv.org/html/2605.20530#A6)。

我们定义了六个主要控制状态:

- • Act —— 任务已充分明确、已授权且安全可执行。
- • Ask —— 任务实质上未充分明确;在不澄清的情况下推进很可能导致错误或不安全的操作。
- • Refuse —— 操作被禁止、有害或超出可接受权限范围。
- • Stop —— 智能体已达到任务完成、确定不可能,或检测到进一步操作是冗余或不安全的。
- • Confirm —— 任务可行但敏感或不可逆,因此需要用户明确同意。
- • Recover —— 当前轨迹已失败,正确的下一步是修复、回滚、重新定位或重新规划,而非盲目继续。

参考标题图 1:六个控制门——Act、Ask、Refuse、Stop、Confirm、Recover——及其典型的失败风险(过度行动、不必要询问、过度拒绝、循环、忽视不可逆性、盲目继续)。Ask 与 Assume 行为可直接测量:在一个不明确的 SWE-bench Verified 子集上的 Ask or Assume? 研究 (Ask or Assume 团队,2026 (https://arxiv.org/html/2605.20530#bib.bib4)) 显示,一个不确定性感知的多智能体脚手架通过在其自身不确定性信号将请求标记为模糊时选择性地询问,将整体任务解决率从 61.2% 提升至 69.4%(增益 8.2 个百分点)(图 D.5 (https://arxiv.org/html/2605.20530#A4.F5))。

相似文章

AgentCollabBench:诊断优秀智能体为何成为糟糕的协作者

arXiv cs.CL

本文介绍了 AgentCollabBench,这是一个针对多智能体系统的诊断性基准,用于评估四大主流大语言模型(LLM)中的指令衰减和上下文泄漏等行为风险。文章认为,通信拓扑结构是多智能体可靠性的关键因素,其重要性往往超越了模型的原始能力。