@rohanpaul_ai:Arena 刚刚发布了一个真实世界的智能体排行榜,该排行榜根据人工智能模型完成实际用户任务的效果进行排名,而不仅仅是……
摘要
Agent Arena 是一个新的排行榜,它通过任务成功、可操控性和恢复等信号评估人工智能模型在编码、研究、文件分析等真实世界智能体任务上的表现,其中 GPT-5.5 High 领先。
查看缓存全文
缓存时间: 2026/06/05 23:21
Arena 刚刚发布了一个真实场景的智能体排行榜,该排行榜根据 AI 模型完成实际用户任务的表现进行排名,而非孤立的基准测试问题。
该系统追踪智能体使用网络搜索、文件以及终端工具的过程,用户要求它们编写代码、构建应用、研究主题、创建文档以及分析文件。
几乎所有传统 AI 基准测试的问题在于,它们测试的都是干净任务,而现在的智能体需要处理诸如编码、研究、文档、网页浏览、文件和终端命令等杂乱工作。
Agent Arena 试图在实际工作会话中衡量智能体,在这些会话中,用户会纠正它们、批准结果、提出投诉、下载文件,并在任务进行中暴露工具故障。
其核心思想是将每个模型选择视为一个测试条件,然后估算与基线相比,该模型对任务结果的改善程度。
该排行榜结合了 5 个信号:确认任务成功、表扬与投诉、遵循纠正的能力、从终端错误中恢复,以及智能体是否虚构不存在的工具。
数据规模足够大,能够展示真实行为模式,包含 30 万+任务、200 万+工具调用,以及智能体生成的 4000 万行代码。
得分结合了任务成功、可引导性、bash 恢复、表扬与投诉对比以及工具幻觉,这意味着模型根据是否完成任务、是否恢复、是否接受纠正以及是否避免虚假工具调用来评判。
GPT-5.5 High 以 +10.7% 的净提升领先,其次是 Claude Opus 4.7 Thinking(+9.5%)和 GPT-5.4 High(+8.9%)。
最有用的细节是,智能体像压力下的工人一样失败:它们可能会留下部分未完成,声称工作已完成,或者在纠正后放弃时听起来自信。
Arena 的最大贡献在于将智能体视为工作系统,其中模型选择、工具使用、恢复行为和用户满意度都共同发挥作用。
Arena.ai (@arena): 介绍 Agent Arena:大规模真实场景的智能体评估。
如何评估进行实际工作的智能体?我们衡量数百万个真实用户完成真实任务的实时会话。
在 Arena 上,模型现在可以使用网络搜索、文件系统和终端工具来完成复杂
相似文章
Arena.ai 可能正在运行迄今为止最欺诈性的基准测试
这篇文章批评 Arena.ai 涉嫌运行不诚实的基准测试,声称其将 GPT 5.5 在编程能力上排在 Meta 的 Muse Spark 之下,并将 Grok Imagine 在视频生成方面排在 Seedance 之上,作者断言这是客观错误的。
Arena Agent Mode
Arena Agent Mode 使自主AI代理能够完成现实世界任务。
我构建了一个实时排名系统,涵盖所有AI代理和基础模型(开源)
一位开发者推出了AgentTape,这是一个实时排名网站,汇聚来自多个来源(GitHub、Hugging Face、OpenRouter等)的数据,对公开的AI代理和基础模型进行评分和比较,旨在提供超越基准测试的更全面评估。
开放智能体排行榜
IBM Research 发布了开放智能体排行榜,这是一个开放的基准测试和评估框架,用于基于质量和成本比较完整的 AI 智能体系统,旨在衡量跨多样化任务的通用性。
AI智能体的进步速度远超大多数人预期
本文讨论了AI智能体在过去一年中的快速进步,重点介绍了它们在多步骤工作流、工具使用、编程和现实世界集成方面能力的提升,标志着从演示到实用数字工作者的转变。