WorkBench再访:两年后的工作场所智能体

arXiv cs.CL 论文

摘要

本文在WorkBench基准发布两年后再次对其进行评估,显示当前最佳智能体(Claude Opus 4.8)能完成89%的任务,且仅有2.5%的有害副作用,而2024年GPT-4的完成率为43%,有害率为26%。研究发现,能力与安全性同步提升,开放权重模型大幅降低了成本,但一些基本错误仍然存在。

arXiv:2606.13715v1 Announce Type: cross 摘要:2024年3月,WorkBench上最好的智能体GPT-4完成了43%的任务,并在26%的任务中采取了意外有害行为(例如发错邮件)。我们在2026年6月重新审视该基准,发现迄今为止最好的智能体Claude Opus 4.8完成了89%的任务,且意外有害行为发生率仅为2.5%。除了前沿智能体性能的显著进步外,还有三点值得注意。第一,在WorkBench上,能力与安全性是同步提升而非相互权衡,因此完成最多任务的模型造成的意外损害也最少。第二,虽然几类错误已被完全消除,但前沿模型仍然会犯一些基本错误,偶尔导致不可逆转的损害,例如将邮件发送给错误的人。第三,开放权重模型的兴起大幅降低了此前只有专有模型才能达到的性能水平的成本,而前沿成本则保持相对稳定。我们发布了该基准的更新版本,改进了数据和代码质量,提供了新的模型得分,并分析了自2024年以来WorkBench上智能体的进展。
查看原文
查看缓存全文

缓存时间: 2026/06/15 09:00

# WorkBench 再探:职场智能体两年之后
来源:https://arxiv.org/html/2606.13715
\[ Extension = \.otf, UprightFont = \*\-regular, BoldFont = \*\-bold, ItalicFont = \*\-italic, BoldItalicFont = \*\-bolditalic, \]

###### 摘要

2024年3月,WorkBench上最强的智能体 GPT-4 完成了43%的任务,并在其中26%的任务中做出了非预期的有害行为,比如将邮件发给了错误的人。我们在2026年6月重新审视了这个基准测试,发现迄今为止最强的智能体 Claude Opus 4.8 完成了89%的任务,并且在2.5%的任务中做出了非预期的有害行为。除了前沿智能体性能的巨大进步之外,有三点值得注意。首先,在WorkBench上,能力和安全性是相辅相成的,而不是相互权衡——完成任务最多的模型造成的不经意损害也最少。其次,虽然几类错误已经被完全消除,但前沿模型仍然会犯一些基本错误,偶尔导致不可逆转的损害,比如将邮件发给错误的人。第三,开源权重模型的兴起大幅降低了达到此前只有专有模型才能达到的性能水平的成本,而前沿模型的成本则保持相对稳定。我们发布了基准测试的更新版本,包括数据和代码质量改进、新的模型分数以及自2024年以来WorkBench上智能体进展的分析。

![[未标注图片]](https://arxiv.org/html/2606.13715v1/x1.png)

图1:各模型的结果组成。每个模型的690个WorkBench任务分为:正确、失败但无害、有害副作用,按任务完成率排序(底部最好)。GPT-4是原始2024年结果(完成率43%,副作用26%,在修订前的基准测试上使用ReAct循环评测);其他七个是2026年的运行结果,来自表1(https://arxiv.org/html/2606.13715#S2.T1)。
## 1 引言

大型语言模型现在越来越多地被部署为代表用户采取行动的智能体:更新客户记录、管理电子邮件、安排会议。大多数智能体基准测试衡量的是与此相近的能力,例如网络导航(Zhou et al., 2024 (https://arxiv.org/html/2606.13715#bib.bib6))、通用助手(Mialon et al., 2023 (https://arxiv.org/html/2606.13715#bib.bib3))或广泛的工具使用(Liu et al., 2023 (https://arxiv.org/html/2606.13715#bib.bib2))。WorkBench(Styles et al., 2024 (https://arxiv.org/html/2606.13715#bib.bib4))的构建就是为了直接衡量职场场景。它提供了一个包含五个数据库的沙箱(一个包含300个事件的日历、一个包含500封邮件的收件箱、500条网站分析记录、一个包含200个客户的客户关系管理器,以及一个包含300个任务的项目管理看板)、26个用于读写这些数据库的工具,以及690个从模板生成的任务(每个模板10个任务),涵盖单领域和多领域工作。一个任务通过将沙箱的最终状态与真实情况进行比较来评分,因此智能体可以采取任何路径,从自身错误中恢复,并且没有第二个模型进行评判。这使WorkBench有别于动作匹配基准测试和那些依赖LLM评估器的基准测试,例如API-Bank(Li et al., 2023 (https://arxiv.org/html/2606.13715#bib.bib1))。

在2024年发布时,该基准测试远未被攻克。最强的智能体,一个围绕GPT-4的ReAct(Yao et al., 2022 (https://arxiv.org/html/2606.13715#bib.bib5))循环,完成了43%的任务;评估过的最弱的开放模型Llama2-70B只完成了3%。两年后,可用的模型集合几乎全是新的。所以问题很简单:情况改变了多少,又是以何种方式改变的?

我们做了三件事:

- • 我们在一个统一的现代智能体框架下,重新运行了WorkBench,评测了21个在2023年至2026年间发布的模型,涵盖四家供应商以及专有和开源权重模型,该框架使用原生工具调用而非文本解析的ReAct(第2.1节 (https://arxiv.org/html/2606.13715#S2.SS1))。
- • 我们报告了任务完成率以及原始论文未涉及的两个维度:有害副作用的发生率,以及完整运行基准测试一次的预估美元成本(第2节 (https://arxiv.org/html/2606.13715#S2))。
- • 我们纠正了原始基准测试中的一组评分、真实情况和提示词问题,对其工具进行了工程改进,并量化了这些问题影响了哪些任务,从而使未来对2026年基准测试的结果具有可比性(第4节 (https://arxiv.org/html/2606.13715#S4))。

简而言之:该领域取得了显著但不均衡的提升,而更晚的发布日期的优势出奇地小。在修正后的基准测试上,完成率大约翻了一番,最好的模型现在几乎完全以无害的方式失败,并且同期模型在能力和成本上的差异足够大,以至于发布日期几乎无法说明任何一方面的情况。首先展示模型结果;最后我们介绍自2024年以来对基准测试的更新,以及构成这些数字基础的修正和工程改进。

## 2 结果

### 2.1 实验设置

智能体框架。原始论文将每个模型作为一个ReAct(Yao et al., 2022 (https://arxiv.org/html/2606.13715#bib.bib5))循环运行,该循环从自由形式的文本中解析工具调用。我们现在改用每个当前模型提供商都公开的原生工具调用(结构化输出)接口,因此模型发出针对工具模式的类型化调用,而框架永远不需要从文本中恢复格式错误的操作。循环的其他部分保持不变:向智能体提供任务、所有26个工具(每个任务都提供),以及最多20步以达到最终状态,并在模型允许的情况下将温度设置为零。仅此一项更改就消除了主导2024年结果的格式遵循失败(第3节 (https://arxiv.org/html/2606.13715#S3)),我们对每个模型都采用此设置,以确保比较是公平的。

模型。我们评估了2023年3月至2026年5月期间发布的21个模型:从GPT-3.5-turbo到GPT-5.5的GPT系列、三个Claude模型(Opus 4.8、Sonnet 4.6 和 Haiku 4.5)、两个Gemini模型(3.1-pro 和 3.5-flash),以及四个开源权重模型(Qwen、DeepSeek、Kimi、GLM)。

成本估算。我们根据记录的提示和完成情况估算完整运行一次基准测试的成本。输入和输出令牌计数通过字符串长度(每四个字符一个令牌)近似得出,并添加了系统提示和完整工具模式(约7,000个令牌,每次调用都重新发送)的固定每次调用开销。我们按照每个提供商公布的标准每令牌费率对它们进行定价,不计缓存。因此,得出的数字是上限:缓存重复系统提示和模式的提供商将收取明显更少的费用。

### 2.2 发现

表1 (https://arxiv.org/html/2606.13715#S2.T1) 报告了21个模型的任务成功完成率、有害副作用的发生率(采取了错误操作,例如将邮件发送给错误的人,越低越好),以及每个任务的预估成本。

| 模型 | 成功完成任务 ↑ | 副作用 ↓ | 每任务成本 ↓ |
| :--- | :--- | :--- | :--- |
| Claude Opus 4.8 | 88.8% | 2.5% | $0.182 |
| GPT-5.5 | 87.7% | 3.9% | $0.206 |
| Gemini-3.1-pro | 87.7% | 3.0% | $0.076 |
| Gemini-3.5-flash | 84.2% | 3.0% | $0.067 |
| Claude Sonnet 4.6 | 80.7% | 9.7% | $0.105 |
| Kimi-K2.6 | 80.6% | 6.8% | $0.022 |
| DeepSeek-V4-pro | 77.8% | 12.8% | $0.017 |
| GPT-5 | 77.7% | 13.0% | $0.050 |
| GPT-5.4 | 71.2% | 16.8% | $0.087 |
| o3 | 71.0% | 17.5% | $0.072 |
| GLM-4.6 | 70.7% | 17.1% | $0.017 |
| GPT-4.1 | 70.0% | 19.4% | $0.065 |
| Claude Haiku 4.5 | 67.5% | 16.7% | $0.034 |
| GPT-5.2 | 63.3% | 18.8% | $0.055 |
| Qwen3.5 | 63.2% | 21.4% | $0.003 |
| GPT-4o | 62.9% | 15.1% | $0.068 |
| GPT-4-turbo | 56.7% | 22.3% | $0.307 |
| GPT-5.4-mini | 53.9% | 30.3% | $0.027 |
| GPT-5.1 | 52.5% | 18.1% | $0.036 |
| GPT-5.4-nano | 44.2% | 28.6% | $0.007 |
| GPT-3.5-turbo | 25.8% | 38.7% | $0.016 |

表 1:任务完成率、副作用和每任务成本。完成率和副作用基于全部690个任务;每任务成本是基准测试总花费除以690。行按任务完成率排序。↑表示越高越好,↓表示越低越好。

完成率大约翻了一番。2024年最好的智能体完成了43%的任务;2026年最好的智能体Claude Opus 4.8完成了88.8%。来自四个不同提供商的六个模型现在超过了80%。最强的模型仍然在九分之一的任务上失败,但提升空间比这看起来要小:剩下的失败是更难的推理和多步骤检索案例,再加上一些任务,其中模型的推理可以说是合理的,尽管被评分为不正确(第3节 (https://arxiv.org/html/2606.13715#S3))。

自2024年以来进展平稳。图2 (https://arxiv.org/html/2606.13715#S2.F2) 绘制了每个模型的任务完成率与其公开发布日期(跨所有供应商)的关系。灰色线描绘了前沿,即截至该日期任何模型达到的最佳完成率,它从2023年初GPT-3.5-turbo的25.8%稳步上升到2026年中Opus 4.8的88.8%。许多后来的版本远低于这条前沿线:较小的GPT-5.4-mini和-nano层级,甚至一些旗舰型号如GPT-5.1,都低于更旧的模型。

![参考图注](https://arxiv.org/html/2606.13715v1/x2.png)

图 2:按发布日期划分的WorkBench任务完成率。每个评估模型的任务成功完成率与其公开发布日期的关系,按供应商着色。灰色线是随时间推移的最佳完成率前沿:它只向上移动,因此低于当前最佳运行的模型不会与它连接。

![参考图注](https://arxiv.org/html/2606.13715v1/x3.png)

图 3:WorkBench上每任务成本与任务完成率的关系。每任务成本是运行基准测试一次的总花费除以690个任务;横轴是对数刻度。点按模型是开源权重还是专有着色。灰色线是效率前沿(每个价格点上能力最强的模型);仅标出了前沿模型和少数显著的异常值。

成本跨越两个数量级。图3 (https://arxiv.org/html/2606.13715#S2.F3) 在对数成本轴上绘制了每任务成本与任务完成率的关系。灰色线是效率前沿:其廉价端完全是开源权重,并且这些模型中的每一个都来自中国实验室:Qwen3.5、DeepSeek-V4-pro 和 Kimi-K2.6。昂贵、高完成率的末端则相反,完全是西方的专有产品:两个Gemini模型和Opus 4.8。落在两者之间前沿之外的,主要是西方的预算级产品。Claude Haiku 4.5和GPT-5.4 mini和nano模型既不是最便宜的也不是能力最强的,并且各自都被一个更便宜、能力更强的开源权重模型所超越:GPT-5.4-nano($0.007,44%)完全输给了Qwen3.5($0.003,63%),而Haiku 4.5($0.034,68%)同时被DeepSeek、Kimi和GLM击败。今天最便宜的有能力的智能体是一个中国的开源权重模型,而能力最强的是一个西方的专有模型,西方的预算选项受到来自两方面的挤压。成本随时间推移的降低是显著的:Qwen3.5以大约百分之一的成本,超越了2024年最先进技术GPT-4的表现。

## 3 重新审视原始错误类别

我们用当前模型重新审视了原始论文中最大的七个错误来源。2024年初前沿模型(GPT-4)的两个最大错误来源已被当今最好的模型消除。

- •**未能遵循ReAct。**已消除。这是由于更多针对工具使用的训练,以及能够使用约束解码(也称为结构化输出)来保证模式遵循。
- •**将信息发送到错误的电子邮件地址。**几乎消除。模型不再将文档字符串中的`[email protected]`视为要模仿的模式,而是使用提供的工具解析正确的地址。然而,我们确实观察到一个GPT-5.5将邮件发送到`an@example`地址的实例。
- •**绘制未来数据。**未改善。系统提示说明今天的日期是2023年11月30日星期四,当前时间是00:00:00。模型一致地使用2023-11-30作为结束日期来绘图,而该日期没有数据。这可以说是可以防御的行为,但实际上会在图中产生一个空日,因此我们将其计为不正确。
- •**未能识别可用的日历时段。**已消除。前沿LLM一致地正确使用日历搜索工具并预订正确的时段。
- •**误解检索到的数据。**减少,但模型仍然会犯基本错误。例如,给定任务“请检查自周五以来参与用户的百分比增长。如果增长超过平均会话时长...”,Opus 4.8将参与用户的百分比增长与平均会话时长的最新原始值进行了比较。
- •**更新错误的事件。**已消除。前沿LLM一致地使用正确的搜索工具来识别要更新的事件。
- •**错误使用搜索。**减少。WorkBench中的许多搜索工具将每个查询的结果上限设为五个,因此当需要超过五个结果才能完成任务时,智能体需要多次调用。这仍然偶尔会让前沿LLM出错。

## 4 自2024年以来的更新

上述数字是在一个自2024年发布以来已发生变化的基准测试上评分的。我们进行了两种更改:修正(修复基准测试对智能体不公平或单纯评分错误的情况),以及对工具和任务设计的工程改进。我们在此记录两者,并量化修正对分数的影响有多大。

### 4.1 基准测试修正

这些不是装饰性的。它们移除了基准测试对智能体不公平或单纯评分错误的情况。几个代表性例子:

- •“最后N天”真实情况中的差一错误。日期截止线被计算为 `today - N` 而不是 `today - N + 1`,这改变了一小部分电子邮件和日历任务的答案键。已修复并重新生成。
- •**提示和答案键不匹配。**几个任务问了一件事,但评分依据却是另一件事。一个占位符始终显示“多于”,而答案有时是为“少于”计算的,并且一个电子邮件任务的评分主题与措辞不符。智能体因为正确遵循指令而被扣分。提示现在与评分的分支匹配。
- •**一个静默零聚合错误。**一个“最少逾期任务”的任务使用了 `idxmin`,它丢弃了逾期任务为零的人,因此正确答案永远不可能是零计数的人。已重新措辞并重新计算。
- •**推迟任务现在尊重工作时间(1个任务)。**一个“将我的第一次会议推迟2小时”的任务将会议推迟到18:30结束,违反了提示本身“没有会议在下午6点后结束”的规则,因此正确拒绝的模型被扣分。现在将延迟限制在会议下午6点前结束,仅更改了该一个任务。
- •**邮件正文显示真实换行符(10个任务)。**发送邮件提示显示了带有转义 `\n` 的正文,而答案键解析为真实换行符,因此忠实的副本存储了字面量的反斜杠-n,导致所有10个发送邮件任务失败。显示的正文现在包含真实的换行符,留下一个规范答案(金标准列未改变)。
- •**更清晰的工具描述。**工具文档字符串现在枚举了枚举类型参数的允许值,并记录了结果限制,因此智能体从一开始就被告知沙箱的规则,而不是通过试错发现。
- •**计数查询变得可解决。**“分配给任务最少或最多的人”在 `search_tasks` 将结果上限设为五且没有工具枚举人员的情况下是无法完成的。`search_tasks` 的上限单独提高到200,以便智能体枚举看板并进行聚合;其他搜索保持五个的上限。

#### 4.1.1 影响范围

观察基准测试变化量的最清晰方法是固定模型,并在两个版本上重新评分。GPT-4,2024年的前沿模型,在旧基准测试上得分为49%,在修正后的基准测试上得分57%,在两者上以相同方式重新采样。

相似文章

JobBench:让智能体工作与人类意愿对齐

arXiv cs.AI

JobBench 是一个基于工人调查构建的基准,用于评估 AI 智能体在工人最希望自动化的任务上的表现,涵盖 35 个职业的 130 个任务,并配备详细的评分细则。

WildClawBench:真实世界长周期智能体评估基准

Hugging Face Daily Papers

WildClawBench 使用真实的命令行界面环境和实际工具,评估语言和视觉-语言模型在现实长周期任务上的表现。该基准测试显示,即使最佳模型也仅达到62.2%的准确率,表明长周期智能体评估仍具有挑战性。