开放智能体排行榜

Hugging Face Blog 2026/05/18 14:12 工具

open-source benchmark ai-agents evaluation leaderboard ibm-research cost-efficiency

摘要

IBM Research 发布了开放智能体排行榜，这是一个开放的基准测试和评估框架，用于基于质量和成本比较完整的 AI 智能体系统，旨在衡量跨多样化任务的通用性。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/05/18 18:32

开放智能体排行榜

来源：https://huggingface.co/blog/ibm-research/open-agent-leaderboard 返回文章列表 (https://huggingface.co/blog)

Elron Bandel 的头像 (https://huggingface.co/Elron)

我们能衡量通用性吗？(https://huggingface.co/blog/ibm-research/open-agent-leaderboard#can-we-measure-generality)
我们构建了什么 (https://huggingface.co/blog/ibm-research/open-agent-leaderboard#what-we-built)
如何阅读排行榜 (https://huggingface.co/blog/ibm-research/open-agent-leaderboard#how-to-read-the-leaderboard)
我们已经学到的东西 (https://huggingface.co/blog/ibm-research/open-agent-leaderboard#what-were-already-learning)
今天开放了什么 (https://huggingface.co/blog/ibm-research/open-agent-leaderboard#whats-public-today)
我们对社区的期望 (https://huggingface.co/blog/ibm-research/open-agent-leaderboard#what-we-want-from-the-community)
下一步计划 (https://huggingface.co/blog/ibm-research/open-agent-leaderboard#whats-next)
结语 (https://huggingface.co/blog/ibm-research/open-agent-leaderboard#closing)
延伸阅读 (https://huggingface.co/blog/ibm-research/open-agent-leaderboard#related-reading)

通用 AI 智能体到底有多好？我们构建了一个开放评估框架来找出答案。

在 AI 领域，大多数评估报告的是一个简单的结果：每个模型在某个基准测试任务上得了多少分。但当你部署一个智能体时，你选择的不仅仅是一个模型。你选择了一整套系统：智能体可以使用哪些工具、它如何规划步骤、它在行动之间记住什么、当出现问题后如何恢复。改变其中任何一个环节，同一个模型可能会产生截然不同的结果，成本也大相径庭。

AI 智能体效果的好坏不仅取决于其内部的模型，更取决于它的构建方式。

今天我们正式推出开放智能体排行榜（Open Agent Leaderboard），这是一个用于比较完整智能体系统（而不仅仅是内部模型）的开放基准。它同时报告质量与成本，让你不仅能看到什么方法有效，还能判断什么值得部署。

该排行榜与用于运行和复现评估的 Exgentic 框架，以及一篇描述完整方法论与结果的论文相辅相成。所有内容从第一天起就完全开放。

https://huggingface.co/blog/ibm-research/open-agent-leaderboard#can-we-measure-generality我们能衡量通用性吗？

AI 智能体在针对特定任务精心定制时确实非常有用，比如在熟悉的代码仓库中编程，或使用已知的工具集处理客户服务。但更难的问题是：同一个智能体能否处理许多不同的任务——每个任务都有自己的工具、规则和约束——而无需针对每个任务进行人工定制？

一个更通用的智能体，是你可以直接投入到新环境中，让它立即正常工作。

这就是我们所说的通用性，它最好被理解为一个光谱，而非一个二元标签。当然，只停留在理论上的通用性是没有用的。关键在于，当任务和环境的范围扩大时，智能体是否依然保持能力，并且以合理的成本实现这一点。一个什么都能处理但运行成本高得惊人的系统，在实际上并不具备任何有意义的通用性。

这个排行榜衡量的正是：你的智能体实际上有多通用。

它在多种多样且不熟悉的环境中进行评估，每个环境都有不同的工具、规则和约束，并同时报告质量与成本。这样你不仅能看出系统表现如何，还能判断它是否值得实际部署。它虽然并未涵盖通用智能体最终所需的所有能力，但对于评估智能体在不同场景下的工作效果而言，它比以往任何可用工具都强得多。而且，由于它将完整的智能体系统（而非仅仅模型）作为被测量对象，它使得真正驱动结果的要素变得可见。

https://huggingface.co/blog/ibm-research/open-agent-leaderboard#what-we-built我们构建了什么

我们整合了六个基准测试，每个测试不同类型的实际任务。它们共同旨在捕捉广泛的工作场景：编程、客户服务、技术支持、个人助理以及研究。

SWE-Bench Verified —— 修复真实代码仓库中的真实 bug
BrowseComp+ —— 在网络上研究复杂的问答
AppWorld —— 跨数百个应用和操作完成个人任务
tau2-Bench Airline & Retail —— 遵守公司政策的客户服务
tau2-Bench Telecom —— 遵守公司政策的技术支持

每个都是经过研究社区创建和审查的既定基准。选择它们并非因为任何一个能单独捕获通用智能体能力，而是因为组合起来它们测试了非常不同的东西：真实的代码变更、开放式研究、广泛的动作空间、受规则约束的对话。正是这种混合使得评估有意义。

这些基准最初各自设计用于以特定方式测试特定类型的任务。让它们协同工作意味着要给它们一个共享的结构。我们引入了一个统一协议，为每个基准赋予相同的形态：一个任务（要做什么）、一个上下文（要知道什么）和一组动作（允许做什么）。

不再是每个智能体说各自基准的语言，而是它们都说同一种语言。

这种标准化并非小事。每个基准都带有自己的假设、指令和交互模式。确保这些内容不与不同智能体的内部工作方式冲突，需要深入理解双方。这是这项工作耗时较长的原因之一，也是结果可能与你在单独基准排行榜上看到的不同原因之一。但回报是实实在在的：基准保持其原始设计，智能体保持其原生工具和接口，而协议为它们提供了通用的连接方式。

image (https://cdn-uploads.huggingface.co/production/uploads/5fc0292de45c5468456e022b/yLmat6dxzLjwbZ-tNazHR.png)

https://huggingface.co/blog/ibm-research/open-agent-leaderboard#how-to-read-the-leaderboard如何阅读排行榜

每一行是一个完整的智能体系统：一个特定的智能体与一个特定的模型配对，在所有六个基准上进行评估。对于每种配置，你会看到平均成功率、每个任务的平均成本，以及每个基准的详细分解。

以下是当前前五名的样子：image (https://cdn-uploads.huggingface.co/production/uploads/5fc0292de45c5468456e022b/L8FGKXb5S14dRZwEC3FYP.png)

看看前三名。它们都使用相同的模型。然而，由于包裹在该模型周围的智能体系统不同，它们的得分和成本都存在差异。

相同的模型，不同的智能体，不同的结果——智能体本身很重要。

成本差距同样惊人。前五名中最高效的配置，其运行成本仅为最强配置的零头。当你在质量与成本的二维图上绘制每种配置时，全貌会变得清晰：image (https://cdn-uploads.huggingface.co/production/uploads/5fc0292de45c5468456e022b/ST0X8UETPI1bf5iCdHhNR.png)

当智能体的实现与模型一同可见时，你就可以开始理清驱动结果的因素：哪些提升来自模型，哪些来自智能体设计，哪些组件能够跨场景泛化。这正是这个排行榜要展示的。

关于结果的一点说明：这里的智能体是作为通用系统进行测试的，没有针对特定基准进行调优，也没有采用模型开发者通常对单个基准应用的提示和环境优化。因此得分可能有所不同。详情请参见论文。

https://huggingface.co/blog/ibm-research/open-agent-leaderboard#what-were-already-learning我们已经学到的东西

有一个发现让我们感到惊讶：通用智能体已经能够与专用智能体相匹敌。在多个案例中，没有经过基准特定调优的智能体，其表现与直接为这些任务构建的系统不相上下。

image (https://cdn-uploads.huggingface.co/production/uploads/5fc0292de45c5468456e022b/yqCrOOnnjFfht0sQ90hxQ.png)

在大多数基准测试中，通用智能体匹配甚至超越了最佳专用系统的表现。一个单一的智能体正日益能够处理多种类型的工作，而不仅仅是它为之准备的那一个环境。

结果还揭示了你无法仅从成功率中看到的东西：不同智能体的失败方式差异巨大。有些失败得又快又便宜，有些则在放弃之前消耗完长时间、昂贵的运行。在我们的实验中，失败的运行比成功的运行成本高出 20-54%。对于任何在生产环境中运行智能体的人来说，失败行为对你的账单影响与成功一样大。

也许最重要的发现是关于驱动结果的因素。模型选择仍然是主导因素。但智能体架构已经显示出明显的影响。工具预选——帮助智能体聚焦于相关工具而不是搜索所有工具——在我们测试的每个模型上都提升了性能，并将原本会失败的配置变成了可行的方案。

如今，模型解释了大部分结果。但围绕它的智能体已经开始改变结局。

完整的方法论和实证分析详见我们的论文（关于通用智能体评估）(https://arxiv.org/abs/2602.22953)。

https://huggingface.co/blog/ibm-research/open-agent-leaderboard#whats-public-today今天开放了什么

这个排行榜背后的所有内容都是开放的。今天我们发布：

开放智能体排行榜 (https://huggingface.co/spaces/open-agent-leaderboard/leaderboard) —— 直接探索结果
Exgentic (https://github.com/Exgentic/exgentic) —— 自己运行和复现评估
论文 (https://arxiv.org/abs/2602.22953) —— 完整的方法论和实证分析

我们为社区构建了这一切。快来探索、提交你自己的结果 (https://huggingface.co/datasets/open-agent-leaderboard/results)，帮助我们让智能体评估更开放、对每个人都更有用。

image (https://cdn-uploads.huggingface.co/production/uploads/5fc0292de45c5468456e022b/L5tewLN1oDsxMlqsyJ-d5.png)

https://huggingface.co/blog/ibm-research/open-agent-leaderboard#what-we-want-from-the-community我们对社区的期望

通用智能体太重要了，不能在紧闭的门后进行评估。

通用智能体是模块化系统：规划、记忆、工具使用、上下文管理、错误恢复。上面这些结果表明，这些组件在成本、可靠性和性能之间做出了实际的权衡。如果某个组件承担了主要工作量，社区应该能够看到这一点。

我们构建 Exgentic 就是为了让这种开放评估变得实际可行：它是一个开放平台，可以协调跨环境的基准测试会话，并产生标准化的结果、轨迹和成本报告。但我们无法独自完成这一切。

智能体开发者可以通过版本管理变更、记录内部内容以及使组件可配置来开放他们的系统。基准创建者可以帮助扩展我们进行评估的环境范围。任何人也都可以复现我们的结果、挑战它们，并找出我们遗漏的地方。

并非所有这些现在都很容易。大多数基准在设计时并没有考虑到通用智能体，需要仔细的适配。这是一个不断发展的项目，关于哪些方面需要更易用的反馈，与完成的贡献一样受欢迎。

https://huggingface.co/blog/ibm-research/open-agent-leaderboard#whats-next下一步计划

自发布以来，我们增加了两个开放权重模型：DeepSeek V3.2 和 Kimi K2.5，使得排行榜涵盖了五个智能体和六个基准上共计五个模型。开放权重的结果讲述了一个清晰的故事：在特定组合上具有竞争力，但平均落后于前沿闭源模型 18-29 个百分点。更多详情请阅读我们的开放权重深度解读 (https://huggingface.co/blog/open-weight-agents/)。

排行榜的价值取决于喂养它的社区。我们期待在三个维度上获得贡献：新智能体（将你的智能体包装到 Exgentic 协议中并提交结果）、新基准（任何具有程序化评估器的任务套件都可以集成）以及新模型（尤其是我们尚未覆盖的开放权重模型）。通过在结果数据集 (https://huggingface.co/datasets/open-agent-leaderboard/results) 上提交 PR 来提交结果。

https://huggingface.co/blog/ibm-research/open-agent-leaderboard#closing结语

通用智能体值得反映出实际被测量内容的评估：完整的系统，而不仅仅是模型。

开放智能体排行榜是一个起点。我们相信它可以变得更大：成为社区评估、比较和改进开放智能体系统的共享标准。

探索排行榜 (https://huggingface.co/spaces/open-agent-leaderboard/leaderboard)。阅读论文 (https://arxiv.org/abs/2602.22953)。试用 Exgentic (https://github.com/Exgentic/exgentic)。如果这个方向引起你的共鸣，请帮助我们建设它。

通用智能体正在重塑工作的方式。让我们公开地研究和讨论它们。

https://huggingface.co/blog/ibm-research/open-agent-leaderboard#related-reading延伸阅读

通用智能体评估 (https://arxiv.org/abs/2602.22953) —— ICLR 2026 研讨会论文
准备好迎接通用智能体了吗？让我们测试一下。 (https://iclr-blogposts.github.io/2026/blog/2026/general-agent-evaluation/) —— ICLR 2026 博客文章
立场声明：智能体系统应当是通用的 (https://openreview.net/forum?id=CbJpizP0vJ) —— ICLR 2026 研讨会论文

开放智能体排行榜

开放智能体排行榜

https://huggingface.co/blog/ibm-research/open-agent-leaderboard#can-we-measure-generality我们能衡量通用性吗？

https://huggingface.co/blog/ibm-research/open-agent-leaderboard#what-we-built我们构建了什么

https://huggingface.co/blog/ibm-research/open-agent-leaderboard#how-to-read-the-leaderboard如何阅读排行榜

https://huggingface.co/blog/ibm-research/open-agent-leaderboard#what-were-already-learning我们已经学到的东西

https://huggingface.co/blog/ibm-research/open-agent-leaderboard#whats-public-today今天开放了什么

https://huggingface.co/blog/ibm-research/open-agent-leaderboard#what-we-want-from-the-community我们对社区的期望

https://huggingface.co/blog/ibm-research/open-agent-leaderboard#whats-next下一步计划

https://huggingface.co/blog/ibm-research/open-agent-leaderboard#closing结语

https://huggingface.co/blog/ibm-research/open-agent-leaderboard#related-reading延伸阅读

相似文章

我构建了一个实时排名系统，涵盖所有AI代理和基础模型（开源）

@rohanpaul_ai：Arena 刚刚发布了一个真实世界的智能体排行榜，该排行榜根据人工智能模型完成实际用户任务的效果进行排名，而不仅仅是……

@OkhayIea: 每个人都在竞相构建“AI科学家”。因此我们提出了一个直白的问题：当今最好的编码代理能打败公开发表的…

它是否具备足够的代理能力？使用你自己的工具对开放模型进行基准测试

跨尺度科学挑战的AI智能体基准测试

提交意见反馈