@rohanpaul_ai: 当前前沿智能体在现实自动化方面的准备程度远不及它们在基准测试中的分数所暗示的那样。本文提…
摘要
本文介绍了“智能体最终考试”(Agents' Last Exam),这是一个测试AI智能体在55个数字工作领域中进行真实专家工作能力的基准。目前最强的智能体在大多数任务上失败,在最难的层级中平均通过率仅为2.6%,揭示了基准分数与现实世界自动化准备程度之间的巨大差距。
查看缓存全文
缓存时间: 2026/06/11 15:39
如今的前沿智能体在实际自动化任务中的表现远不如其基准测试分数所显示的那么可靠。
本文提出了一项名为“Agents’ Last Exam“的基准测试,要求AI智能体完成真实专家工作,而当前的智能体大多无法胜任。
即使是当今最强的智能体,在最难的真实工作流程中也远未达到可靠水平,这意味着基准测试的成功并未转化为广泛的职场能力。
因此,本文将问题从“AI能否回答难题“转向“AI能否完成人们付费从事的真实工作“。
目前大多数AI基准测试都显示出令人印象深刻的分数,但它们并不能证明智能体能完成真实工作中的实用任务。
“Agents’ Last Exam“尝试通过测试智能体在55个数字工作领域(包括工程、金融、医学、法律、媒体和科学)中的长任务来解决这一问题。
这些任务来自专家实际完成的项目,智能体必须使用正常的计算机工具(如文件、浏览器、命令行和桌面软件)来产出最终结果。
作者测试了多种当前智能体系统和模型,并通过自动检查或严格评分标准(而非宽松的人工评判)对其完成的工作进行评分。
主要结果是:目前最好的系统仍然表现不佳,在最难的层级中平均完全通过率仅为2.6%。
链接 – arxiv.org/abs/2606.05405
标题:“Agents’ Last Exam”
相似文章
@dair_ai: // Agents' Last Exam // Agents' Last Exam 是一个包含1000多项经济价值任务的动态基准,由2…
Agents' Last Exam 是一个动态基准,包含超过1000项经济价值任务,旨在评估AI agents在真实世界工作流程中的表现,目前在最高难度级别上的完全通过率仅为2.6%。
@rohanpaul_ai:Arena 刚刚发布了一个真实世界的智能体排行榜,该排行榜根据人工智能模型完成实际用户任务的效果进行排名,而不仅仅是……
Agent Arena 是一个新的排行榜,它通过任务成功、可操控性和恢复等信号评估人工智能模型在编码、研究、文件分析等真实世界智能体任务上的表现,其中 GPT-5.5 High 领先。
智能体的最终考试
介绍智能体的最终考试(ALE),这是一个基准测试,用于评估AI智能体在长期、具有经济价值的现实世界任务上的表现,涵盖13个行业集群的1000多项任务,揭示了基准性能与实际部署之间的巨大差距。
有没有人也觉得AI代理在事情变得复杂之前都表现得很惊艳?
对AI代理令人印象深刻的演示和可靠的实际执行之间差距的反思,认为当前代理擅长结构化任务但在不可预测条件下会失败,并指出近期AI角色将主要集中于带人类监督的窄范围自动化。
PaperBench:评估AI复现AI研究的能力
OpenAI推出PaperBench,一个评估AI代理复现最先进AI研究能力的基准。该基准通过复现20篇ICML 2024论文,包含8,316个可评分任务。表现最好的模型(Claude 3.5 Sonnet)仅达到21%的复现分数,低于人类博士级别的表现,凸显了当前自主研究能力的局限性。