智能体的最终考试
摘要
介绍智能体的最终考试(ALE),这是一个基准测试,用于评估AI智能体在长期、具有经济价值的现实世界任务上的表现,涵盖13个行业集群的1000多项任务,揭示了基准性能与实际部署之间的巨大差距。
查看缓存全文
缓存时间: 2026/06/10 00:08
Paper page - Agents’ Last Exam (智能体终极考试)
来源:https://huggingface.co/papers/2606.05405
发布于6月3日
·
由 https://huggingface.co/XinyangDavidHan 提交
Han (https://huggingface.co/XinyangDavidHan) 于6月9日提交
#2 今日论文 (https://huggingface.co/papers/date/2026-06-09)
作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
Agents’ Last Exam (ALE) 是一个用于评估AI代理在长期、经济价值高、现实世界任务上表现的基准,涵盖13个行业集群、1000+任务,揭示了基准性能与实际部署之间的显著差距。
近年来,AI系统在广泛基准上取得了强劲成绩,但这些成果并未转化为多个专业领域的经济意义部署。我们认为,这种差距很大程度上是一个评估问题:广泛使用的基准缺乏对真实且有经济价值的工作流程的持续性性能测量。本文介绍Agents’ Last Exam (ALE)——一个旨在评估AI代理在长期、经济价值高、现实世界任务上并具有可验证结果的基准。ALE与250+行业专家合作开发,覆盖了参考O*NET (https://huggingface.co/papers?q=O*NET)/SOC 2018 (https://huggingface.co/papers?q=SOC%202018)(美国联邦职业分类体系)定义的非体力型行业。它围绕一个任务分类体系组织,包含55个子领域,归为13个行业集群,涵盖1000+任务。当前结果显示,最难的层级远未饱和:在主流框架和后端配置中,平均完全通过率仅为2.6%。ALE被设计为一个动态基准:其任务池随着新工作流程和行业的加入而持续增长。更广泛地说,ALE不仅旨在成为另一个排行榜,更希望成为弥合基准成功与GDP相关影响力之间差距的工具。
查看arXiv页面 (https://arxiv.org/abs/2606.05405)
查看PDF (https://arxiv.org/pdf/2606.05405)
项目页面 (https://agents-last-exam.org/)
GitHub 183 (https://github.com/rdi-berkeley/agents-last-exam)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.05405)
在你的代理中获取这篇论文:
hf papers read 2606\.05405
没有最新CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用本文的模型0
没有模型链接这篇论文
在模型README.md中引用 arxiv.org/abs/2606.05405 以从此页面链接到它。
引用本文的数据集0
没有数据集链接这篇论文
在数据集README.md中引用 arxiv.org/abs/2606.05405 以从此页面链接到它。
引用本文的Spaces0
没有Space链接这篇论文
在Space README.md中引用 arxiv.org/abs/2606.05405 以从此页面链接到它。
包含本文的收藏0
没有收藏包含这篇论文
将此论文添加到一个收藏 (https://huggingface.co/new-collection) 以从此页面链接到它。
相似文章
@dair_ai: // Agents' Last Exam // Agents' Last Exam 是一个包含1000多项经济价值任务的动态基准,由2…
Agents' Last Exam 是一个动态基准,包含超过1000项经济价值任务,旨在评估AI agents在真实世界工作流程中的表现,目前在最高难度级别上的完全通过率仅为2.6%。
自动化智能体评估的实证研究
本文介绍了 EvalAgent,这是一个通过编码领域专业知识来自动化 AI 智能体评估的系统,旨在解决标准编程助手在此任务中的局限性。此外,本文还提出了用于测试评估流程的基准 AgentEvalBench,并展示了在评估可靠性方面的显著提升。
MLE-bench:评估机器学习代理在机器学习工程中的表现
# MLE-bench:评估机器学习代理在机器学习工程中的表现 来源:[https://openai.com/index/mle-bench/](https://openai.com/index/mle-bench/) OpenAI 评估机器学习代理在机器学习工程中的表现 我们推出了 MLE-bench,这是一个用于衡量 AI 代理在机器学习工程中表现如何的基准。为此,我们从 Kaggle 精选了 75 个与 ML 工程相关的竞赛,创建了一个多样化的具有挑战性的任务集合,用于测试真实的 ML 工程
AI-Trader:在实时金融市场中对自主智能体进行基准测试
本文介绍了 AI-Trader,这是首个用于评估大语言模型(LLMs)在美股、A股和加密货币等金融决策方面的全自动实时基准测试平台。研究指出,通用智能并不必然保证交易成功,并强调了在自主智能体中风险控制的重要性。
Agent-ValueBench:一个评估智能体价值观的综合基准
本文提出了 Agent-ValueBench,这是一个旨在评估自主智能体价值观的综合基准,揭示了智能体的价值观与其底层语言模型存在分歧。