@dair_ai: // Agents' Last Exam // Agents' Last Exam 是一个包含1000多项经济价值任务的动态基准,由2…
摘要
Agents' Last Exam 是一个动态基准,包含超过1000项经济价值任务,旨在评估AI agents在真实世界工作流程中的表现,目前在最高难度级别上的完全通过率仅为2.6%。
查看缓存全文
缓存时间: 2026/06/05 19:20
// Agents’ Last Exam //
// Agents’ Last Exam 是一个包含超过1000项经济价值任务的动态基准,由250多位行业专家共同构建,并映射至美国联邦职业分类体系。其最难层级在主流通用框架和模型上的平均完全通过率仅为2.6%。ALE 更像是一种GDP覆盖率的测量工具,而非另一个几周内就会饱和的测试。论文:https://arxiv.org/abs/2606.05405 在我们的学院学习构建有效的AI智能体:https://academy.dair.ai
Agents’ Last Exam
来源:https://arxiv.org/html/2606.05405
摘要
近年来,AI系统在众多基准测试上取得了强劲成果,然而这些成绩并未转化为经济意义上在各专业领域的大规模部署。我们认为,这一差距很大程度上源于评估问题:广泛使用的基准缺乏对真实且具有经济价值的工作流进行持续性能测量。本文介绍Agents’ Last Exam (ALE),一个旨在评估AI智能体在长周期、经济价值高、结果可验证的真实世界任务上的表现的基准。ALE 与250多位行业专家合作开发,覆盖了以O*NET/SOC 2018(美国联邦职业分类体系)为参考的非实体行业。它围绕一个任务分类体系组织,包含55个子领域,归为13个行业集群,涵盖1000多项任务。当前结果显示,最难层级远未饱和:在主流通用框架和模型配置下,平均完全通过率仅为2.6%。ALE 被设计为一个动态基准:其任务池随着新工作流和行业的加入而持续增长。更广泛地说,ALE 的意图不仅是增加一个排行榜,而是作为缩小基准成功与GDP相关影响之间差距的工具。
组织与执行团队
Yiyou Sun*, Xinyang Han*, Weichen Zhang*, Yuanbo Pang*, Tianyu Wang*, Yuhan Cao*, Yixiao Huang*, Chris Duroiu, Haoyun Zhang, Jeffrey Lin, Weishu Zhang, Tyler Zeng, Ying Yan, Bo Liu, Hanson Wen, Mingyang Xu, Xiaoyuan Liu, Zimeng Chen, Weiyan Shi, Amanda Dsouza, Vincent Sunn Chen, Dawn Song*
* 核心贡献者。
顾问委员会
Patrick Bryant, Carl Boettiger, Yamini Rangan, Bradley Rothenberg, Kyle Steinfeld, Arvind Rao, Tapio Schneider, Georgios Yannakakis, Laure Zanna, Kaan Ozbay, Ida Sim, Tarek Zohdi, George Em Karniadakis, Jack Gallant, Teresa Head-gordon
数据贡献者
Yushan Li, Wenxi Deng, Tao Sun, Huiqi Wang, Zhun Wang, Justin Xu, Chris Yuhao Liu, Yafei Cheng, Rongwang Hu, Aras Bacho, Shengcao Cao, Zengyi Qin, Yixiong Chen, Hengduan Fan, Hao Liu, Lin Zeng, Shashank Muralidhar Bharadwaj, Litian Gong, Yingxuan Yang, Maojia Song, Ruheng Wang, Zongzheng Zhang, Honglin Bao, Shuo Lu, Jianhong Tu, Zhonghua Wang, Zheng Zhang, Zijiao Chen, yanqiong Jiang, Zhendong Li, Bohan Lyu, Chang Ma, Peiran Xu, Benran Zhang, Shangding Gu, Haoyue Hua, Haoyang Li, Wanzhe Liao, Chengzhi Liu, Junbo Peng, Haoran Sun, Zechen Xu, Bo Chen, Jiayi Cheng, Yi Jiang, Keying Kuang, Yuan Li, Youbang Pan, Ziyan Rao, Alexander Schubert, Yifan Shen, Vincent Siu, Xiatao Sun, Kangqi Zhang, Xiaopan Zhang, Yuchen Zhu, Ishaan Singh Chandok, Lei Ding, Jingxuan Fan, Andrew Glover, Jiaming Hu, Yiran Hu, Wenbo Huang, Zixin Jiang, Haoran Jin, Lukas Kim, Ming Liu, Yang Liu, Alireza Rafiei, Xuhuan Shen, Kunyang Sun, Sophia Sun, Ting Sun, Eric Wang, Yixin Wang, Hanwen Xing, Sihan Xu, Yuzheng Xu, Zhongxing Xu, Zhiling Yan, Boqin Yuan, Ruiqi Zhang, Yifan Zhang, Zibo Zhao, Liana, Santanu Bosu Antu, Haoyue Bai, Carlo Bosio, Joseph Cavanagh, Patricia Cavazos-Rehg, Tianxing Chen, Xuewen Chen, Yipu Chen, Zhu Chenyu, Chen Dai, Stefano De Castro, Yunfu Deng, Kaustubh Dhole, Jiayuan Ding, Chenchen Du, Zhehang Du, Hao Fan, Run-ze Fan, Hengyu Fu, Shi Gu, Yifan Gu, Charlie Guo, Baihe Huang, Baixiang Huang, Rimika Jaiswal, Zhihan Jiang, Ran Jin, Erin Kasson, Xin Lan, Joseph Lee, Deren Lei, Chenyu Li, Daofeng Li, Haitao Li, Hongwei Li, Jingyan Li, Xiao Li, Yi Li, Yinsheng Li, Yuangang Li, Zhixu Li, Wenyu Liang, Longtai Liao, Kevin Qinghong Lin, AndyZeyi Liu, Che Liu, Jiaming Liu, Kaiyuan Liu, Xuan Liu, Pan Lu, Wenbo Lv, Yicheng Lv, Qiuyang Mang, Kyle Montgomery, Yuzhou Nie, Ruoxi Ning, Jorin Overwiening, Xu Pan, Layna Paraboschi, Core Francisco Park, Justin Purnomo, Swati Rajwal, Scott Rankin, Bixuan Ren, Yiren Rong, HaoYang Shang, Ventus Shaw, Fiona Shen, Jiawei Shen, Minqi Shi, Qiu Shi, Huaxiu Yao, Tianneng Shi, Jonah So, Vladislav Susoy, Hannah Szlyk, Haocheng Wang, Jialu Wang, Wei Wang, Xinyu Wang, Zehao Wang, Dowling Wong, Angela Wu, Dehao Wu, Fangyu Wu, Mengyuan “Millie” Wu, Yu Wu, Yuchen Wu, Yuhao Wu, Qingpo Wuwu, Weihang Xiao, Yongyi Xiong, Fan Xu, Ruiling Xu, Mingxuan Yan, Benjamin Yang, Jirong Yang, Sen Yang, Xiaoli Yang, Yushi Yang, Haoran Ye, Xiaohu Yu, Zhengming Yu, Chenlong Zhang, Chi Zhang, Hanning Zhang, Hanwen Zhang, Junge Zhang, Kunpeng Zhang, Song Zhang, Wenjin Zhang, Wenshuo Zhang, Ying Zhang, Yizhi Zhang, Brian Zhao, Qijian Zhao, Yimin Zhao, Yuhaohua Zheng, Liwei Zhou, Tianyue Zhou, Sichen Zhu, Siqi Zhu, Yan Zhu, Yishu Zhu, Jierui Zuo, Chonghao Cai, Helena Casademunt, Wenjia Chen, Benjamin Cheng, Nawen Deng, Rao Fu, Tianfu Fu, Yifan Han, Ren He, Zhenyu He, Qiao Jin, Lang Lang, Yuetai Li, Sylvia Liu, Lu Lu, Qing Lu, Subhabrata Mukherjee, Yunqi Ouyang, Yin Ren, Dawei Shi, Haoran Wu, Zhiyue Wu, Hannah Yao, Zhuoran Yi, Jenny Yu, Rhea Zhan, Hang Zhou, Blake Zhu, Junfan Zhu, Alan Yuille, Yang Liu, Russell Alan Poldrack, Jiachen Li, Zhenglu Li, Molei Tao, Jing Huang, Wenqi Shi, Costas Spanos, Lichao Sun, Chenguang Wang, Orson Xu, Zhen Dong, Hector Gomez, Aylin Caliskan, Ali Emami, Haimin Hu, Zhi Li, Lihui Liu, Murphy Niu, Yi Shao, Jianxin Sun, Mikko Tolonen, Ting Wang, Sanjiv Das, Yanjun Gao, Wenbo Guo, Erika J Schneider, Zhiyong Lu, Mark Mueller, Radha Poovendran, Somayeh Sojoudi
主导机构:加州大学伯克利分校。
通讯邮箱:{sunyiyou,dawnsong}@berkeley.edu。
完整附属机构见附录A(https://arxiv.org/html/2606.05405#A1)。
参见图1:Agents’ Last Exam 涵盖了广泛的职业任务分类和真实的工作流。
参见图2:1,490个任务实例在ALE分类体系中的分布。每一行是55个子领域之一,归属于13个顶级领域(括号内为各领域总数)。堆叠柱状图将每个子领域分解为已完全实现的实例(领域颜色)和等待质量控制(QC)流程的专家提交(橙色)。所有55个子领域均获得非零覆盖。当前可运行的任务实例针对Linux或Windows虚拟机。
1 引言
过去几年中,AI系统接连攻克了一个又一个备受瞩目的基准:世界冠军级别的游戏38、奥数竞赛14、以及竞技编程12。然而,从最终衡量标准——经济产出——来看,其更广泛的影响却出人意料地平淡;基准测试的胜利积累速度远快于核心行业的可测量变革。我们将这一差距视为AI的效用问题,表明该领域现在需要的评估不仅要衡量抽象能力,还要衡量在真实职业环境中执行长周期、高经济价值工作的能力。
这一差距至关重要,因为AI的进展在很大程度上受制于该领域选择优化的基准。基准不仅仅记录能力;它们聚焦研究注意力,定义工程目标,并常常决定哪些领域能够快速改进。AI的近期历史清楚地表明了这种模式:一旦某个领域被一个可验证且广泛使用的评估所捕捉,该领域的进展往往会加速,部署也常常随之而来,就像ImageNet10在计算机视觉领域所扮演的角色那样。然而,对于金融、法律、电气工程和制造业等经济核心领域,类似的评估仍不成熟。如果能够构建这样的基准并最终使其饱和,那么这一结果将不仅仅意味着测试成功:它表明AI系统已经能够以足够进行实际工业采用的水平执行底层职业工作流。
构建此类评估在结构上存在困难。首先,长周期的真实工作流收集成本高昂,因为它们必须来源于真实的软件和组织环境。以往的工作往往采用更易于收集的任务单元,无论是较短的计算机使用任务46、合成环境构建1,还是纯问答设置48。其次,广泛的行业覆盖与真实、高经济价值的工作流也难以实现。它需要持续接触到跨领域的专家以及对行业格局的深刻洞察。现有基准通常只评估有限的一组领域3。第三,对于真实工作流而言,验证本质上很困难,因为输出空间是异构的。正确的交付物可能是文件、电子表格、媒体制品、报告、设计或模型。因此,衡量经济价值工作的基准常常依赖人工判断,如GDPval33和远程劳动指数19所示。
这些约束解释了为何现有基准常常在真实性、广度或可验证性之间进行取舍。它们共同推动了**Agents’ Last Exam (ALE)**的产生。
为什么叫“Last Exam”?这个名字承载着双重期望。
- “最后”作为能力门槛:一个通过这些行业考试的智能体表明它已经准备好在该职业中从事持续、高经济价值的工作,而不仅仅是回答相关的问题。
- “最后”作为难度极限:通过将评估建立在需要专业判断的真实长周期工作流之上,ALE 处于当前系统能够可靠完成的任务边界。
参见图3:基准定位图。通过将已发布的基准领域映射到ALE领域分类体系,展示先前基准的位置。
ALE 是一个包含1000多个任务实例的基准,覆盖55个子领域和13个行业集群,与250多位领域专家合作开发。为确保广泛且有代表性的行业覆盖,专家顾问委员会映射每个领域的工作流全景,并识别具有经济意义的工作流族,以 O*NET / SOC 2018 职业分类体系34, 41为锚点。其任务工作流源自真实职业实践:专家贡献他们实际完成的项目,而非发明合成场景;这些项目随后经过多轮质量控制,包括初筛、工程师试运行以及专家委员会的最终同行评审,然后才被接纳。大多数任务需要计算机使用,将GUI交互(桌面应用、浏览器、领域特定软件)与CLI操作(Shell脚本、代码执行、文件操作)交织在一起,这要求现有基准单独测试的能力的联合使用。为了使异构的真实世界输出无需人工评判即可验证,ALE 将评估标准化,围绕基于结构化交付物或里程碑的检查,对照专家提供的参考和评分标准进行。
ALE 的目标评估主体是通用计算机使用智能体 (GCUA),如 Claude Code4 或 Codex29,它们将视觉感知、代码执行、工具使用和长周期规划结合在一个单一动作循环中。通过设计,ALE 的任务表面是仅GUI基准(如 OSWorld46)和仅CLI基准(如 Terminal-Bench20)的超集。为了进行覆盖比较,我们使用55个ALE子领域作为通用坐标系,并将每个先前基准的已发布主题、应用、仓库或职业映射到此分类体系(图3)。
当前结果证实ALE远未饱和:最强配置(Codex with GPT-5.5)在Terminal-Bench上已达到82%,但在ALE最简单层级上得分低于50%,在最难层级上低于10%;大多数主流智能体,包括Claude Code,在该难度级别上记录到近乎零的通过率。更广泛地说,ALE的意图不仅是另一个排行榜,而是作为缩小基准成功与GDP相关影响之间差距的工具:如果前沿AI智能体能通过这场最后的考试,那么基准上的进展可能开始转化为真正的经济变革。
2 基准设计与数据集构建
2.1 基准设计原则:我们在寻找什么样的任务?
该基准由三个高层需求定义。它们决定了哪些工作流被纳入数据集,哪些在公开提交门户中被拒绝:
- 代表性。工作流应匹配真实职业实践,并使用领域专家实际使用的软件。例如,建筑专家通常使用SolidWorks或Rhino而非AutoCAD来将二维蓝图转换为三维模型。
- 复杂性。任务应是一个端到端的交付物,需要专家花费相当时间,而不仅仅是几个UI操作。关键区别在于工作流与操作。不良示例:“在DaVinci中应用颜色滤镜”过于狭窄,因为它是一个单一的局部编辑。更好示例:“将一只奔跑的猎豹移入另一个赛跑视频”是合适的,因为它在一个耦合的工作流中需要跟踪、遮罩、合成和颜色匹配。
- 可验证性。输出应允许确定性检查或与可观察制品相关的明确评分标准。最强的情况是可确定性验证的交付物,可以直接与参考输出进行比较。当精确匹配不可能时,判断仍应归结为可测量的制品。不良示例:“设计一个带有怪物的RPG游戏”没有客观可检查的目标。更好示例:“使用RPG Maker XP重现mota.exe游戏”是可验证的,因为在相同的用户操作轨迹下,生成的地图几何、角色属性和事件状态可以与参考版本自动比较。
2.2 基准范围与分类体系:我们覆盖哪些领域?
我们并非随意选择行业或按经济排名选择,而是将ALE分类体系建立在SOC 201841和O*NET34之上:我们将具有相似软件中介工作流的职业聚类为ALE行业,排除核心工作在实质意义上并非数字化的行业,并将结果归为13个领域,涵盖55个子领域(图1;完整推导见附录B.1)。为支持跨基准的公平比较,我们通过LLM辅助分类器,将每个先前基准的已发布类别(主题、应用、仓库或职业)映射到相同的55子领域分类体系上。结果暴露了一个现有基准均未弥补的覆盖空白:即使将16个主要基准的并集…
相似文章
@dair_ai:关于长时程智能体的杰出论文(建议收藏)——类似人类,如何让智能体在困难任务中坚持下去?
AutoLab 是一个新基准测试,针对 36 个由专家精心设计的长时程任务(系统优化、模型开发、CUDA 内核、谜题),对 17 个前沿模型进行评估。研究发现,决定成功的关键因素是持久性——而非初始尝试的质量。Claude-opus-4.6 在所有类别中名列前茅,而大多数其他模型要么过早终止,要么在几乎没有进展的情况下耗尽了预算。
智能体是否准备好教学?面向真实教学工作的多阶段基准
介绍了EduAgentBench,一个基于源的基准,用于评估辅导智能体在教学专业判断、多轮辅导以及自主教学工作流程执行方面的能力。对前沿模型的评估表明,它们在情境化辅导和工作流任务中仍未能达到专业教学标准。
APIEval-20
APIEval-20是一个开放的基准测试,用于评估AI代理测试API的能力。
SaaS-Bench:计算机使用代理能否利用真实世界的SaaS解决专业工作流程?
SaaS-Bench是一个新的基准测试,基于23个可部署的SaaS系统,覆盖六个专业领域,包含106个长周期任务,用于评估计算机使用代理。实验表明,即使是最强的模型,端到端完成任务的比例也不足4%,凸显了当前代理能力的显著限制。
Salesforce运行自家AI Agents基准测试,你看到了吗?
讨论Salesforce的CRMArena-Pro基准测试,结果显示代理在单轮任务中成功率为58%,在多轮任务中骤降至35%;并给出实用建议:将代理工作流拆分为狭窄阶段,以减少错误累积。