@dawnsongtweets: 人人都说最新的AI智能体很快就能“可胜任工作”，尤其是在本周Fable 5发布之后。但事实果真如此吗…

X AI KOLs Timeline 2026/06/11 15:36 新闻

ai-agents benchmark job-readiness fable-5 gpt-5.5 composer-2.5 economic-value

摘要

本文介绍了Agents' Last Exam (ALE)，这是一个持续更新的基准测试，旨在检验AI智能体能否执行具有经济价值的工作。对Fable 5等前沿模型的评估显示，在最困难的任务上成功率为0%，表明真正可胜任工作的智能体尚未到来。

人人都说最新的AI智能体很快就能“可胜任工作”，尤其是在本周Fable 5发布之后。但事实果真如此吗？在过去的几个月里，我和我的团队及合作者一直在构建Agents' Last Exam (ALE)，这是一个旨在检验此言在真实数字劳动力市场上是否成立的基准测试。我和团队及合作者此前已创建了该领域使用的许多基准测试，包括MMLU、MATH、CyberGym和ExploitGym。今天，我很高兴向大家介绍Agents' Last Exam (ALE)：一个持续更新的基准测试，用于衡量AI智能体是否能在广泛的现实领域实际执行具有经济价值的工作。借助ALE，我们评估了Fable 5、GPT-5.5、Composer 2.5以及其他前沿智能体系统，涉及超过1,500个由专家提供的任务，涵盖55种职业。结果既令人印象深刻，也发人深省。当前的智能体能够解决一大部分专业任务。但当我们将目光投向那些最困难的任务——那些需要持续推理、深厚领域专业知识以及长时间可靠执行的任务——它们离人类水平的表现仍有很大差距。在ALE最难的任务层级上，我们测试的所有前沿智能体（包括Fable 5）都达到了0%的成功率。有用智能体的时代已经到来。真正可胜任工作的智能体的时代则尚未到来。我们希望Agents' Last Exam (ALE)能成为新的指路牌和北极星，指引开发能够广泛可靠地执行具有经济价值工作的智能体。

查看原文

查看缓存全文

缓存时间: 2026/06/12 04:54

最近大家都在说，最新的AI智能体很快就能“准备好上岗工作”了——特别是在本周Fable 5发布之后。但事实果真如此吗？

过去的几个月里，我和我的团队及合作者一直在构建“智能体终极测试”（Agents’ Last Exam, ALE）——这是一个专门用来检验上述说法的基准，聚焦于真实的数字劳动力市场任务。

我所在的团队及合作者此前已经开发了许多领域内广泛使用的基准，包括MMLU、MATH、CyberGym和ExploitGym。今天，我很高兴向大家介绍“智能体终极测试”（ALE）：一个滚动更新的基准，用于衡量AI智能体是否能在广泛的现实领域内完成具有经济价值的工作。

通过ALE，我们评估了Fable 5、GPT-5.5、Composer 2.5以及其他前沿智能体系统，共涉及跨越55个职业的1500多个专家提供的任务。

结果既令人印象深刻，也发人深省。

如今的智能体能够解决相当一部分专业任务。但当我们审视那些最困难的任务——需要持续的推理、深厚的领域专业知识，以及在长时间跨度内可靠执行的任务时，它们距离人类水平的表现还相去甚远。

在ALE最难的任务层级上，我们测试的所有前沿智能体（包括Fable 5）的成功率均为0%。

有用的智能体时代已经到来。

真正能胜任工作的智能体时代尚未到来。

我们希望“智能体终极测试”（ALE）能成为新的路标和北极星，指引我们开发出能够可靠地在广泛领域内完成具有经济价值工作的智能体。

@dawnsongtweets: 人人都说最新的AI智能体很快就能“可胜任工作”，尤其是在本周Fable 5发布之后。但事实果真如此吗…

相似文章

智能体的最终考试

@rohanpaul_ai: 当前前沿智能体在现实自动化方面的准备程度远不及它们在基准测试中的分数所暗示的那样。本文提…

@dair_ai: // Agents' Last Exam // Agents' Last Exam 是一个包含1000多项经济价值任务的动态基准，由2…

AI智能体的进步速度远超大多数人预期

AI代理真的变得高效了吗，还是仅仅是能力更强？

提交意见反馈