@dawnsongtweets: 人人都说最新的AI智能体很快就能“可胜任工作”,尤其是在本周Fable 5发布之后。但事实果真如此吗…
摘要
本文介绍了Agents' Last Exam (ALE),这是一个持续更新的基准测试,旨在检验AI智能体能否执行具有经济价值的工作。对Fable 5等前沿模型的评估显示,在最困难的任务上成功率为0%,表明真正可胜任工作的智能体尚未到来。
查看缓存全文
缓存时间: 2026/06/12 04:54
最近大家都在说,最新的AI智能体很快就能“准备好上岗工作”了——特别是在本周Fable 5发布之后。但事实果真如此吗?
过去的几个月里,我和我的团队及合作者一直在构建“智能体终极测试”(Agents’ Last Exam, ALE)——这是一个专门用来检验上述说法的基准,聚焦于真实的数字劳动力市场任务。
我所在的团队及合作者此前已经开发了许多领域内广泛使用的基准,包括MMLU、MATH、CyberGym和ExploitGym。今天,我很高兴向大家介绍“智能体终极测试”(ALE):一个滚动更新的基准,用于衡量AI智能体是否能在广泛的现实领域内完成具有经济价值的工作。
通过ALE,我们评估了Fable 5、GPT-5.5、Composer 2.5以及其他前沿智能体系统,共涉及跨越55个职业的1500多个专家提供的任务。
结果既令人印象深刻,也发人深省。
如今的智能体能够解决相当一部分专业任务。但当我们审视那些最困难的任务——需要持续的推理、深厚的领域专业知识,以及在长时间跨度内可靠执行的任务时,它们距离人类水平的表现还相去甚远。
在ALE最难的任务层级上,我们测试的所有前沿智能体(包括Fable 5)的成功率均为0%。
有用的智能体时代已经到来。
真正能胜任工作的智能体时代尚未到来。
我们希望“智能体终极测试”(ALE)能成为新的路标和北极星,指引我们开发出能够可靠地在广泛领域内完成具有经济价值工作的智能体。
相似文章
智能体的最终考试
介绍智能体的最终考试(ALE),这是一个基准测试,用于评估AI智能体在长期、具有经济价值的现实世界任务上的表现,涵盖13个行业集群的1000多项任务,揭示了基准性能与实际部署之间的巨大差距。
@rohanpaul_ai: 当前前沿智能体在现实自动化方面的准备程度远不及它们在基准测试中的分数所暗示的那样。本文提…
本文介绍了“智能体最终考试”(Agents' Last Exam),这是一个测试AI智能体在55个数字工作领域中进行真实专家工作能力的基准。目前最强的智能体在大多数任务上失败,在最难的层级中平均通过率仅为2.6%,揭示了基准分数与现实世界自动化准备程度之间的巨大差距。
@dair_ai: // Agents' Last Exam // Agents' Last Exam 是一个包含1000多项经济价值任务的动态基准,由2…
Agents' Last Exam 是一个动态基准,包含超过1000项经济价值任务,旨在评估AI agents在真实世界工作流程中的表现,目前在最高难度级别上的完全通过率仅为2.6%。
AI智能体的进步速度远超大多数人预期
本文讨论了AI智能体在过去一年中的快速进步,重点介绍了它们在多步骤工作流、工具使用、编程和现实世界集成方面能力的提升,标志着从演示到实用数字工作者的转变。
AI代理真的变得高效了吗,还是仅仅是能力更强?
对AI代理当前状态的反思,指出尽管它们在写作、编码和规划方面变得更有能力,但在产生有用输出和在实际组织中可靠地推动成果之间仍然存在差距。