@rohanpaul_ai: 当前前沿智能体在现实自动化方面的准备程度远不及它们在基准测试中的分数所暗示的那样。本文提…

X AI KOLs Following 论文

摘要

本文介绍了“智能体最终考试”(Agents' Last Exam),这是一个测试AI智能体在55个数字工作领域中进行真实专家工作能力的基准。目前最强的智能体在大多数任务上失败,在最难的层级中平均通过率仅为2.6%,揭示了基准分数与现实世界自动化准备程度之间的巨大差距。

当前前沿智能体在现实世界自动化方面的准备程度远低于其基准测试分数所暗示的水平。 本文提出了“智能体最终考试”(Agents' Last Exam),这是一个要求AI智能体完成真实专家工作的基准,而当今的智能体大多未能通过。 即使是现今强大的智能体,在最困难的实际工作流程中也远未达到可靠的程度,这意味着基准测试的成功尚未转化为广泛的工作场所能力。 因此,本文将问题从“AI能回答难题吗?”转变为“AI能完成人们为之付费的真实工作吗?” 当前大多数AI基准测试都显示出令人印象深刻的分数,但它们并不能证明智能体能够在实际工作中完成有用的任务。 “智能体最终考试”试图通过测试智能体在55个数字工作领域(包括工程、金融、医学、法律、媒体和科学)中的长期任务来修正这一点。 这些任务来自专家真实完成的项目,智能体必须使用常规的计算机工具(如文件、浏览器、命令行和桌面软件)来产生最终结果。 作者测试了许多当前的智能体系统和模型,然后通过自动检查或严格评分标准(而非宽松的人工意见)对其完成的工作进行评分。 主要结果是,当今最好的系统仍然表现不佳,在最难的层级中平均完全通过率仅为2.6%。 ---- 链接 – arxiv.org/abs/2606.05405 标题:“智能体最终考试”
查看原文
查看缓存全文

缓存时间: 2026/06/11 15:39

如今的前沿智能体在实际自动化任务中的表现远不如其基准测试分数所显示的那么可靠。

本文提出了一项名为“Agents’ Last Exam“的基准测试,要求AI智能体完成真实专家工作,而当前的智能体大多无法胜任。

即使是当今最强的智能体,在最难的真实工作流程中也远未达到可靠水平,这意味着基准测试的成功并未转化为广泛的职场能力。

因此,本文将问题从“AI能否回答难题“转向“AI能否完成人们付费从事的真实工作“。

目前大多数AI基准测试都显示出令人印象深刻的分数,但它们并不能证明智能体能完成真实工作中的实用任务。

“Agents’ Last Exam“尝试通过测试智能体在55个数字工作领域(包括工程、金融、医学、法律、媒体和科学)中的长任务来解决这一问题。

这些任务来自专家实际完成的项目,智能体必须使用正常的计算机工具(如文件、浏览器、命令行和桌面软件)来产出最终结果。

作者测试了多种当前智能体系统和模型,并通过自动检查或严格评分标准(而非宽松的人工评判)对其完成的工作进行评分。

主要结果是:目前最好的系统仍然表现不佳,在最难的层级中平均完全通过率仅为2.6%。


链接 – arxiv.org/abs/2606.05405

标题:“Agents’ Last Exam”

相似文章

智能体的最终考试

Hugging Face Daily Papers

介绍智能体的最终考试(ALE),这是一个基准测试,用于评估AI智能体在长期、具有经济价值的现实世界任务上的表现,涵盖13个行业集群的1000多项任务,揭示了基准性能与实际部署之间的巨大差距。

PaperBench:评估AI复现AI研究的能力

OpenAI Blog

OpenAI推出PaperBench,一个评估AI代理复现最先进AI研究能力的基准。该基准通过复现20篇ICML 2024论文,包含8,316个可评分任务。表现最好的模型(Claude 3.5 Sonnet)仅达到21%的复现分数,低于人类博士级别的表现,凸显了当前自主研究能力的局限性。