@dawnsongtweets: 人人都说最新的AI智能体很快就能“可胜任工作”,尤其是在本周Fable 5发布之后。但事实果真如此吗…

X AI KOLs Timeline 新闻

摘要

本文介绍了Agents' Last Exam (ALE),这是一个持续更新的基准测试,旨在检验AI智能体能否执行具有经济价值的工作。对Fable 5等前沿模型的评估显示,在最困难的任务上成功率为0%,表明真正可胜任工作的智能体尚未到来。

人人都说最新的AI智能体很快就能“可胜任工作”,尤其是在本周Fable 5发布之后。但事实果真如此吗? 在过去的几个月里,我和我的团队及合作者一直在构建Agents' Last Exam (ALE),这是一个旨在检验此言在真实数字劳动力市场上是否成立的基准测试。 我和团队及合作者此前已创建了该领域使用的许多基准测试,包括MMLU、MATH、CyberGym和ExploitGym。今天,我很高兴向大家介绍Agents' Last Exam (ALE):一个持续更新的基准测试,用于衡量AI智能体是否能在广泛的现实领域实际执行具有经济价值的工作。 借助ALE,我们评估了Fable 5、GPT-5.5、Composer 2.5以及其他前沿智能体系统,涉及超过1,500个由专家提供的任务,涵盖55种职业。 结果既令人印象深刻,也发人深省。 当前的智能体能够解决一大部分专业任务。但当我们将目光投向那些最困难的任务——那些需要持续推理、深厚领域专业知识以及长时间可靠执行的任务——它们离人类水平的表现仍有很大差距。 在ALE最难的任务层级上,我们测试的所有前沿智能体(包括Fable 5)都达到了0%的成功率。 有用智能体的时代已经到来。 真正可胜任工作的智能体的时代则尚未到来。 我们希望Agents' Last Exam (ALE)能成为新的指路牌和北极星,指引开发能够广泛可靠地执行具有经济价值工作的智能体。
查看原文
查看缓存全文

缓存时间: 2026/06/12 04:54

最近大家都在说,最新的AI智能体很快就能“准备好上岗工作”了——特别是在本周Fable 5发布之后。但事实果真如此吗?

过去的几个月里,我和我的团队及合作者一直在构建“智能体终极测试”(Agents’ Last Exam, ALE)——这是一个专门用来检验上述说法的基准,聚焦于真实的数字劳动力市场任务。

我所在的团队及合作者此前已经开发了许多领域内广泛使用的基准,包括MMLU、MATH、CyberGym和ExploitGym。今天,我很高兴向大家介绍“智能体终极测试”(ALE):一个滚动更新的基准,用于衡量AI智能体是否能在广泛的现实领域内完成具有经济价值的工作。

通过ALE,我们评估了Fable 5、GPT-5.5、Composer 2.5以及其他前沿智能体系统,共涉及跨越55个职业的1500多个专家提供的任务。

结果既令人印象深刻,也发人深省。

如今的智能体能够解决相当一部分专业任务。但当我们审视那些最困难的任务——需要持续的推理、深厚的领域专业知识,以及在长时间跨度内可靠执行的任务时,它们距离人类水平的表现还相去甚远。

在ALE最难的任务层级上,我们测试的所有前沿智能体(包括Fable 5)的成功率均为0%。

有用的智能体时代已经到来。

真正能胜任工作的智能体时代尚未到来。

我们希望“智能体终极测试”(ALE)能成为新的路标和北极星,指引我们开发出能够可靠地在广泛领域内完成具有经济价值工作的智能体。

相似文章

智能体的最终考试

Hugging Face Daily Papers

介绍智能体的最终考试(ALE),这是一个基准测试,用于评估AI智能体在长期、具有经济价值的现实世界任务上的表现,涵盖13个行业集群的1000多项任务,揭示了基准性能与实际部署之间的巨大差距。

@rohanpaul_ai: 当前前沿智能体在现实自动化方面的准备程度远不及它们在基准测试中的分数所暗示的那样。本文提…

X AI KOLs Following

本文介绍了“智能体最终考试”(Agents' Last Exam),这是一个测试AI智能体在55个数字工作领域中进行真实专家工作能力的基准。目前最强的智能体在大多数任务上失败,在最难的层级中平均通过率仅为2.6%,揭示了基准分数与现实世界自动化准备程度之间的巨大差距。

AI智能体的进步速度远超大多数人预期

Reddit r/AI_Agents

本文讨论了AI智能体在过去一年中的快速进步,重点介绍了它们在多步骤工作流、工具使用、编程和现实世界集成方面能力的提升,标志着从演示到实用数字工作者的转变。