@rohanpaul_ai: 当前前沿智能体在现实自动化方面的准备程度远不及它们在基准测试中的分数所暗示的那样。本文提…

X AI KOLs Following 2026/06/11 00:29 论文

benchmark ai-agents real-world-automation evaluation frontier-models workflow-testing performance-gap

摘要

本文介绍了“智能体最终考试”（Agents' Last Exam），这是一个测试AI智能体在55个数字工作领域中进行真实专家工作能力的基准。目前最强的智能体在大多数任务上失败，在最难的层级中平均通过率仅为2.6%，揭示了基准分数与现实世界自动化准备程度之间的巨大差距。

当前前沿智能体在现实世界自动化方面的准备程度远低于其基准测试分数所暗示的水平。本文提出了“智能体最终考试”（Agents' Last Exam），这是一个要求AI智能体完成真实专家工作的基准，而当今的智能体大多未能通过。即使是现今强大的智能体，在最困难的实际工作流程中也远未达到可靠的程度，这意味着基准测试的成功尚未转化为广泛的工作场所能力。因此，本文将问题从“AI能回答难题吗？”转变为“AI能完成人们为之付费的真实工作吗？” 当前大多数AI基准测试都显示出令人印象深刻的分数，但它们并不能证明智能体能够在实际工作中完成有用的任务。 “智能体最终考试”试图通过测试智能体在55个数字工作领域（包括工程、金融、医学、法律、媒体和科学）中的长期任务来修正这一点。这些任务来自专家真实完成的项目，智能体必须使用常规的计算机工具（如文件、浏览器、命令行和桌面软件）来产生最终结果。作者测试了许多当前的智能体系统和模型，然后通过自动检查或严格评分标准（而非宽松的人工意见）对其完成的工作进行评分。主要结果是，当今最好的系统仍然表现不佳，在最难的层级中平均完全通过率仅为2.6%。 ---- 链接 – arxiv.org/abs/2606.05405 标题：“智能体最终考试”

查看原文

查看缓存全文

缓存时间: 2026/06/11 15:39

如今的前沿智能体在实际自动化任务中的表现远不如其基准测试分数所显示的那么可靠。

本文提出了一项名为“Agents’ Last Exam“的基准测试，要求AI智能体完成真实专家工作，而当前的智能体大多无法胜任。

即使是当今最强的智能体，在最难的真实工作流程中也远未达到可靠水平，这意味着基准测试的成功并未转化为广泛的职场能力。

因此，本文将问题从“AI能否回答难题“转向“AI能否完成人们付费从事的真实工作“。

目前大多数AI基准测试都显示出令人印象深刻的分数，但它们并不能证明智能体能完成真实工作中的实用任务。

“Agents’ Last Exam“尝试通过测试智能体在55个数字工作领域（包括工程、金融、医学、法律、媒体和科学）中的长任务来解决这一问题。

这些任务来自专家实际完成的项目，智能体必须使用正常的计算机工具（如文件、浏览器、命令行和桌面软件）来产出最终结果。

作者测试了多种当前智能体系统和模型，并通过自动检查或严格评分标准（而非宽松的人工评判）对其完成的工作进行评分。

主要结果是：目前最好的系统仍然表现不佳，在最难的层级中平均完全通过率仅为2.6%。

链接 – arxiv.org/abs/2606.05405

标题：“Agents’ Last Exam”

@rohanpaul_ai: 当前前沿智能体在现实自动化方面的准备程度远不及它们在基准测试中的分数所暗示的那样。本文提…

相似文章

@dair_ai: // Agents' Last Exam // Agents' Last Exam 是一个包含1000多项经济价值任务的动态基准，由2…

@dawnsongtweets: 人人都说最新的AI智能体很快就能“可胜任工作”，尤其是在本周Fable 5发布之后。但事实果真如此吗…

@rohanpaul_ai：Arena 刚刚发布了一个真实世界的智能体排行榜，该排行榜根据人工智能模型完成实际用户任务的效果进行排名，而不仅仅是……

@OkhayIea: 每个人都在竞相构建“AI科学家”。因此我们提出了一个直白的问题：当今最好的编码代理能打败公开发表的…

HealthAgentBench: 面向前沿AI智能体的统一真实医疗智能体环境基准套件

提交意见反馈