开放智能体排行榜
摘要
IBM Research 发布了开放智能体排行榜,这是一个开放的基准测试和评估框架,用于基于质量和成本比较完整的 AI 智能体系统,旨在衡量跨多样化任务的通用性。
查看缓存全文
缓存时间: 2026/05/18 18:32
开放智能体排行榜
来源:https://huggingface.co/blog/ibm-research/open-agent-leaderboard 返回文章列表 (https://huggingface.co/blog)
Elron Bandel 的头像 (https://huggingface.co/Elron)
- 我们能衡量通用性吗?(https://huggingface.co/blog/ibm-research/open-agent-leaderboard#can-we-measure-generality)
- 我们构建了什么 (https://huggingface.co/blog/ibm-research/open-agent-leaderboard#what-we-built)
- 如何阅读排行榜 (https://huggingface.co/blog/ibm-research/open-agent-leaderboard#how-to-read-the-leaderboard)
- 我们已经学到的东西 (https://huggingface.co/blog/ibm-research/open-agent-leaderboard#what-were-already-learning)
- 今天开放了什么 (https://huggingface.co/blog/ibm-research/open-agent-leaderboard#whats-public-today)
- 我们对社区的期望 (https://huggingface.co/blog/ibm-research/open-agent-leaderboard#what-we-want-from-the-community)
- 下一步计划 (https://huggingface.co/blog/ibm-research/open-agent-leaderboard#whats-next)
- 结语 (https://huggingface.co/blog/ibm-research/open-agent-leaderboard#closing)
- 延伸阅读 (https://huggingface.co/blog/ibm-research/open-agent-leaderboard#related-reading)
通用 AI 智能体到底有多好?我们构建了一个开放评估框架来找出答案。
在 AI 领域,大多数评估报告的是一个简单的结果:每个模型在某个基准测试任务上得了多少分。但当你部署一个智能体时,你选择的不仅仅是一个模型。你选择了一整套系统:智能体可以使用哪些工具、它如何规划步骤、它在行动之间记住什么、当出现问题后如何恢复。改变其中任何一个环节,同一个模型可能会产生截然不同的结果,成本也大相径庭。
AI 智能体效果的好坏不仅取决于其内部的模型,更取决于它的构建方式。
今天我们正式推出开放智能体排行榜(Open Agent Leaderboard),这是一个用于比较完整智能体系统(而不仅仅是内部模型)的开放基准。它同时报告质量与成本,让你不仅能看到什么方法有效,还能判断什么值得部署。
该排行榜与用于运行和复现评估的 Exgentic 框架,以及一篇描述完整方法论与结果的论文相辅相成。所有内容从第一天起就完全开放。
https://huggingface.co/blog/ibm-research/open-agent-leaderboard#can-we-measure-generality我们能衡量通用性吗?
AI 智能体在针对特定任务精心定制时确实非常有用,比如在熟悉的代码仓库中编程,或使用已知的工具集处理客户服务。但更难的问题是:同一个智能体能否处理许多不同的任务——每个任务都有自己的工具、规则和约束——而无需针对每个任务进行人工定制?
一个更通用的智能体,是你可以直接投入到新环境中,让它立即正常工作。
这就是我们所说的通用性,它最好被理解为一个光谱,而非一个二元标签。当然,只停留在理论上的通用性是没有用的。关键在于,当任务和环境的范围扩大时,智能体是否依然保持能力,并且以合理的成本实现这一点。一个什么都能处理但运行成本高得惊人的系统,在实际上并不具备任何有意义的通用性。
这个排行榜衡量的正是:你的智能体实际上有多通用。
它在多种多样且不熟悉的环境中进行评估,每个环境都有不同的工具、规则和约束,并同时报告质量与成本。这样你不仅能看出系统表现如何,还能判断它是否值得实际部署。它虽然并未涵盖通用智能体最终所需的所有能力,但对于评估智能体在不同场景下的工作效果而言,它比以往任何可用工具都强得多。而且,由于它将完整的智能体系统(而非仅仅模型)作为被测量对象,它使得真正驱动结果的要素变得可见。
https://huggingface.co/blog/ibm-research/open-agent-leaderboard#what-we-built我们构建了什么
我们整合了六个基准测试,每个测试不同类型的实际任务。它们共同旨在捕捉广泛的工作场景:编程、客户服务、技术支持、个人助理以及研究。
SWE-Bench Verified—— 修复真实代码仓库中的真实 bugBrowseComp+—— 在网络上研究复杂的问答AppWorld—— 跨数百个应用和操作完成个人任务tau2-Bench Airline & Retail—— 遵守公司政策的客户服务tau2-Bench Telecom—— 遵守公司政策的技术支持
每个都是经过研究社区创建和审查的既定基准。选择它们并非因为任何一个能单独捕获通用智能体能力,而是因为组合起来它们测试了非常不同的东西:真实的代码变更、开放式研究、广泛的动作空间、受规则约束的对话。正是这种混合使得评估有意义。
这些基准最初各自设计用于以特定方式测试特定类型的任务。让它们协同工作意味着要给它们一个共享的结构。我们引入了一个统一协议,为每个基准赋予相同的形态:一个任务(要做什么)、一个上下文(要知道什么)和一组动作(允许做什么)。
不再是每个智能体说各自基准的语言,而是它们都说同一种语言。
这种标准化并非小事。每个基准都带有自己的假设、指令和交互模式。确保这些内容不与不同智能体的内部工作方式冲突,需要深入理解双方。这是这项工作耗时较长的原因之一,也是结果可能与你在单独基准排行榜上看到的不同原因之一。但回报是实实在在的:基准保持其原始设计,智能体保持其原生工具和接口,而协议为它们提供了通用的连接方式。
image (https://cdn-uploads.huggingface.co/production/uploads/5fc0292de45c5468456e022b/yLmat6dxzLjwbZ-tNazHR.png)
https://huggingface.co/blog/ibm-research/open-agent-leaderboard#how-to-read-the-leaderboard如何阅读排行榜
每一行是一个完整的智能体系统:一个特定的智能体与一个特定的模型配对,在所有六个基准上进行评估。对于每种配置,你会看到平均成功率、每个任务的平均成本,以及每个基准的详细分解。
以下是当前前五名的样子:image (https://cdn-uploads.huggingface.co/production/uploads/5fc0292de45c5468456e022b/L8FGKXb5S14dRZwEC3FYP.png)
看看前三名。它们都使用相同的模型。然而,由于包裹在该模型周围的智能体系统不同,它们的得分和成本都存在差异。
相同的模型,不同的智能体,不同的结果——智能体本身很重要。
成本差距同样惊人。前五名中最高效的配置,其运行成本仅为最强配置的零头。当你在质量与成本的二维图上绘制每种配置时,全貌会变得清晰:image (https://cdn-uploads.huggingface.co/production/uploads/5fc0292de45c5468456e022b/ST0X8UETPI1bf5iCdHhNR.png)
当智能体的实现与模型一同可见时,你就可以开始理清驱动结果的因素:哪些提升来自模型,哪些来自智能体设计,哪些组件能够跨场景泛化。这正是这个排行榜要展示的。
关于结果的一点说明:这里的智能体是作为通用系统进行测试的,没有针对特定基准进行调优,也没有采用模型开发者通常对单个基准应用的提示和环境优化。因此得分可能有所不同。详情请参见论文。
https://huggingface.co/blog/ibm-research/open-agent-leaderboard#what-were-already-learning我们已经学到的东西
有一个发现让我们感到惊讶:通用智能体已经能够与专用智能体相匹敌。在多个案例中,没有经过基准特定调优的智能体,其表现与直接为这些任务构建的系统不相上下。
image (https://cdn-uploads.huggingface.co/production/uploads/5fc0292de45c5468456e022b/yqCrOOnnjFfht0sQ90hxQ.png)
在大多数基准测试中,通用智能体匹配甚至超越了最佳专用系统的表现。一个单一的智能体正日益能够处理多种类型的工作,而不仅仅是它为之准备的那一个环境。
结果还揭示了你无法仅从成功率中看到的东西:不同智能体的失败方式差异巨大。有些失败得又快又便宜,有些则在放弃之前消耗完长时间、昂贵的运行。在我们的实验中,失败的运行比成功的运行成本高出 20-54%。对于任何在生产环境中运行智能体的人来说,失败行为对你的账单影响与成功一样大。
也许最重要的发现是关于驱动结果的因素。模型选择仍然是主导因素。但智能体架构已经显示出明显的影响。工具预选——帮助智能体聚焦于相关工具而不是搜索所有工具——在我们测试的每个模型上都提升了性能,并将原本会失败的配置变成了可行的方案。
如今,模型解释了大部分结果。但围绕它的智能体已经开始改变结局。
完整的方法论和实证分析详见我们的论文(关于通用智能体评估)(https://arxiv.org/abs/2602.22953)。
https://huggingface.co/blog/ibm-research/open-agent-leaderboard#whats-public-today今天开放了什么
这个排行榜背后的所有内容都是开放的。今天我们发布:
- 开放智能体排行榜 (https://huggingface.co/spaces/open-agent-leaderboard/leaderboard) —— 直接探索结果
- Exgentic (https://github.com/Exgentic/exgentic) —— 自己运行和复现评估
- 论文 (https://arxiv.org/abs/2602.22953) —— 完整的方法论和实证分析
我们为社区构建了这一切。快来探索、提交你自己的结果 (https://huggingface.co/datasets/open-agent-leaderboard/results),帮助我们让智能体评估更开放、对每个人都更有用。
image (https://cdn-uploads.huggingface.co/production/uploads/5fc0292de45c5468456e022b/L5tewLN1oDsxMlqsyJ-d5.png)
https://huggingface.co/blog/ibm-research/open-agent-leaderboard#what-we-want-from-the-community我们对社区的期望
通用智能体太重要了,不能在紧闭的门后进行评估。
通用智能体是模块化系统:规划、记忆、工具使用、上下文管理、错误恢复。上面这些结果表明,这些组件在成本、可靠性和性能之间做出了实际的权衡。如果某个组件承担了主要工作量,社区应该能够看到这一点。
我们构建 Exgentic 就是为了让这种开放评估变得实际可行:它是一个开放平台,可以协调跨环境的基准测试会话,并产生标准化的结果、轨迹和成本报告。但我们无法独自完成这一切。
智能体开发者可以通过版本管理变更、记录内部内容以及使组件可配置来开放他们的系统。基准创建者可以帮助扩展我们进行评估的环境范围。任何人也都可以复现我们的结果、挑战它们,并找出我们遗漏的地方。
并非所有这些现在都很容易。大多数基准在设计时并没有考虑到通用智能体,需要仔细的适配。这是一个不断发展的项目,关于哪些方面需要更易用的反馈,与完成的贡献一样受欢迎。
https://huggingface.co/blog/ibm-research/open-agent-leaderboard#whats-next下一步计划
自发布以来,我们增加了两个开放权重模型:DeepSeek V3.2 和 Kimi K2.5,使得排行榜涵盖了五个智能体和六个基准上共计五个模型。开放权重的结果讲述了一个清晰的故事:在特定组合上具有竞争力,但平均落后于前沿闭源模型 18-29 个百分点。更多详情请阅读我们的开放权重深度解读 (https://huggingface.co/blog/open-weight-agents/)。
排行榜的价值取决于喂养它的社区。我们期待在三个维度上获得贡献:新智能体(将你的智能体包装到 Exgentic 协议中并提交结果)、新基准(任何具有程序化评估器的任务套件都可以集成)以及新模型(尤其是我们尚未覆盖的开放权重模型)。通过在结果数据集 (https://huggingface.co/datasets/open-agent-leaderboard/results) 上提交 PR 来提交结果。
https://huggingface.co/blog/ibm-research/open-agent-leaderboard#closing结语
通用智能体值得反映出实际被测量内容的评估:完整的系统,而不仅仅是模型。
开放智能体排行榜是一个起点。我们相信它可以变得更大:成为社区评估、比较和改进开放智能体系统的共享标准。
探索排行榜 (https://huggingface.co/spaces/open-agent-leaderboard/leaderboard)。阅读论文 (https://arxiv.org/abs/2602.22953)。试用 Exgentic (https://github.com/Exgentic/exgentic)。如果这个方向引起你的共鸣,请帮助我们建设它。
通用智能体正在重塑工作的方式。让我们公开地研究和讨论它们。
https://huggingface.co/blog/ibm-research/open-agent-leaderboard#related-reading延伸阅读
- 通用智能体评估 (https://arxiv.org/abs/2602.22953) —— ICLR 2026 研讨会论文
- 准备好迎接通用智能体了吗?让我们测试一下。 (https://iclr-blogposts.github.io/2026/blog/2026/general-agent-evaluation/) —— ICLR 2026 博客文章
- 立场声明:智能体系统应当是通用的 (https://openreview.net/forum?id=CbJpizP0vJ) —— ICLR 2026 研讨会论文
相似文章
我构建了一个实时排名系统,涵盖所有AI代理和基础模型(开源)
一位开发者推出了AgentTape,这是一个实时排名网站,汇聚来自多个来源(GitHub、Hugging Face、OpenRouter等)的数据,对公开的AI代理和基础模型进行评分和比较,旨在提供超越基准测试的更全面评估。
用于衡量前沿AI能力的开放世界评估
本文认为传统基准测试既高估又低估了前沿AI能力,并提出“开放世界评估”——一种定性评估的长期、真实世界任务——作为补充方法。介绍了CRUX项目,并通过一个演示展示了AI代理在最少干预下成功将iOS应用发布到App Store。
@KLieret: 你可以自己在 ProgramBench 上进行评估:https://github.com/facebookresearch/ProgramBench/… 我们将开放排行榜…
ProgramBench 是一个新的基准测试,用于测试 AI 智能体从编译后的二进制文件及其文档中重建完整代码库的能力。排行榜即将开放提交。
MLE-bench:评估机器学习代理在机器学习工程中的表现
# MLE-bench:评估机器学习代理在机器学习工程中的表现 来源:[https://openai.com/index/mle-bench/](https://openai.com/index/mle-bench/) OpenAI 评估机器学习代理在机器学习工程中的表现 我们推出了 MLE-bench,这是一个用于衡量 AI 代理在机器学习工程中表现如何的基准。为此,我们从 Kaggle 精选了 75 个与 ML 工程相关的竞赛,创建了一个多样化的具有挑战性的任务集合,用于测试真实的 ML 工程
Agent-ValueBench:一个评估智能体价值观的综合基准
本文提出了 Agent-ValueBench,这是一个旨在评估自主智能体价值观的综合基准,揭示了智能体的价值观与其底层语言模型存在分歧。