智能体的最终考试

Hugging Face Daily Papers 论文

摘要

介绍智能体的最终考试(ALE),这是一个基准测试,用于评估AI智能体在长期、具有经济价值的现实世界任务上的表现,涵盖13个行业集群的1000多项任务,揭示了基准性能与实际部署之间的巨大差距。

最近的人工智能系统在广泛的基准测试中取得了强劲的结果,但这些成果并未转化为许多专业领域内具有经济意义的实际部署。我们认为,这一差距在很大程度上是一个评估问题:广泛使用的基准测试缺乏对真实且具有经济价值的工作流程进行持续性能衡量。本文介绍了智能体的最终考试(ALE),这是一个旨在评估AI智能体在长期、具有经济价值的现实世界任务上的基准测试,任务结果可验证。ALE与250多位行业专家合作开发,涵盖了参照O*NET / SOC 2018(美国联邦职业分类体系)定义的非体力行业。它围绕一个任务分类法组织,包含55个子领域,分为13个行业集群,涵盖1000多项任务。当前结果显示,最难的任务层级远未饱和:在主流框架和基础配置下,平均完全通过率为2.6%。ALE被设计为一个活的基准测试:随着新工作流程和行业的加入,其任务池持续增长。更广泛地说,ALE不仅是另一个排行榜,更是旨在缩小基准测试成功与GDP相关影响之间差距的工具。
查看原文
查看缓存全文

缓存时间: 2026/06/10 00:08

Paper page - Agents’ Last Exam (智能体终极考试)

来源:https://huggingface.co/papers/2606.05405
发布于6月3日

·

由 https://huggingface.co/XinyangDavidHan 提交

Han (https://huggingface.co/XinyangDavidHan) 于6月9日提交

#2 今日论文 (https://huggingface.co/papers/date/2026-06-09)
作者:

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

摘要

Agents’ Last Exam (ALE) 是一个用于评估AI代理在长期、经济价值高、现实世界任务上表现的基准,涵盖13个行业集群、1000+任务,揭示了基准性能与实际部署之间的显著差距。

近年来,AI系统在广泛基准上取得了强劲成绩,但这些成果并未转化为多个专业领域的经济意义部署。我们认为,这种差距很大程度上是一个评估问题:广泛使用的基准缺乏对真实且有经济价值的工作流程的持续性性能测量。本文介绍Agents’ Last Exam (ALE)——一个旨在评估AI代理在长期、经济价值高、现实世界任务上并具有可验证结果的基准。ALE与250+行业专家合作开发,覆盖了参考O*NET (https://huggingface.co/papers?q=O*NET)/SOC 2018 (https://huggingface.co/papers?q=SOC%202018)(美国联邦职业分类体系)定义的非体力型行业。它围绕一个任务分类体系组织,包含55个子领域,归为13个行业集群,涵盖1000+任务。当前结果显示,最难的层级远未饱和:在主流框架和后端配置中,平均完全通过率仅为2.6%。ALE被设计为一个动态基准:其任务池随着新工作流程和行业的加入而持续增长。更广泛地说,ALE不仅旨在成为另一个排行榜,更希望成为弥合基准成功与GDP相关影响力之间差距的工具。

查看arXiv页面 (https://arxiv.org/abs/2606.05405)
查看PDF (https://arxiv.org/pdf/2606.05405)
项目页面 (https://agents-last-exam.org/)
GitHub 183 (https://github.com/rdi-berkeley/agents-last-exam)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.05405)

在你的代理中获取这篇论文:

hf papers read 2606\.05405

没有最新CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本文的模型0

没有模型链接这篇论文

在模型README.md中引用 arxiv.org/abs/2606.05405 以从此页面链接到它。

引用本文的数据集0

没有数据集链接这篇论文

在数据集README.md中引用 arxiv.org/abs/2606.05405 以从此页面链接到它。

引用本文的Spaces0

没有Space链接这篇论文

在Space README.md中引用 arxiv.org/abs/2606.05405 以从此页面链接到它。

包含本文的收藏0

没有收藏包含这篇论文

将此论文添加到一个收藏 (https://huggingface.co/new-collection) 以从此页面链接到它。

相似文章

自动化智能体评估的实证研究

arXiv cs.CL

本文介绍了 EvalAgent,这是一个通过编码领域专业知识来自动化 AI 智能体评估的系统,旨在解决标准编程助手在此任务中的局限性。此外,本文还提出了用于测试评估流程的基准 AgentEvalBench,并展示了在评估可靠性方面的显著提升。

MLE-bench:评估机器学习代理在机器学习工程中的表现

OpenAI Blog

# MLE-bench:评估机器学习代理在机器学习工程中的表现 来源:[https://openai.com/index/mle-bench/](https://openai.com/index/mle-bench/) OpenAI 评估机器学习代理在机器学习工程中的表现 我们推出了 MLE-bench,这是一个用于衡量 AI 代理在机器学习工程中表现如何的基准。为此,我们从 Kaggle 精选了 75 个与 ML 工程相关的竞赛,创建了一个多样化的具有挑战性的任务集合,用于测试真实的 ML 工程

AI-Trader:在实时金融市场中对自主智能体进行基准测试

Papers with Code Trending

本文介绍了 AI-Trader,这是首个用于评估大语言模型(LLMs)在美股、A股和加密货币等金融决策方面的全自动实时基准测试平台。研究指出,通用智能并不必然保证交易成功,并强调了在自主智能体中风险控制的重要性。