@dair_ai:关于长时程智能体的杰出论文(建议收藏)——类似人类,如何让智能体在困难任务中坚持下去?

X AI KOLs Following 论文

摘要

AutoLab 是一个新基准测试,针对 36 个由专家精心设计的长时程任务(系统优化、模型开发、CUDA 内核、谜题),对 17 个前沿模型进行评估。研究发现,决定成功的关键因素是持久性——而非初始尝试的质量。Claude-opus-4.6 在所有类别中名列前茅,而大多数其他模型要么过早终止,要么在几乎没有进展的情况下耗尽了预算。

一篇关于长时程智能体的杰出论文。 (建议收藏) 类似于人类,如何让智能体在困难任务中坚持下去,这又有什么实际价值? 当前哪些模型在这方面表现出色? 这项最新研究——AutoLab——深入探讨了上述问题,以及在智能体中编码持久性对自动化研究和工程任务的积极意义。 一个模型能否像真实的研究和工程工作那样,在严格的时钟预算内持续数小时地优化一个成果物? 主要结论: AutoLab 为智能体提供了 36 个由专家精心设计的任务,涵盖系统优化、模型开发、CUDA 内核和谜题,每个任务都从一个正确但刻意设置为次优的基线开始。 在对 17 个前沿模型的测试中,决定成功的主要因素并非首次尝试的质量,而是持久性——即反复进行基准测试、修改代码,并将实验反馈融入迭代过程的能力。 Claude-opus-4.6 在这一循环中表现尤为稳健,而大多数其他模型要么过早放弃,要么在几乎没有任何进展的情况下耗尽了预算。 论文地址:https://arxiv.org/abs/2606.05080 欢迎前往我们的学院,学习如何构建高效的 AI 智能体:https://academy.dair.ai
查看原文
查看缓存全文

缓存时间: 2026/06/05 02:20

关于长时域智能体的杰出论文。

(值得收藏)

与人类类似,如何让智能体坚持完成困难任务,这又有什么价值?

当今哪些模型在这方面表现出色?

这项新工作 AutoLab 深入探讨了上述问题,以及在智能体中编码持久性对自动化研究和工程任务的益处。

模型能否在严格的时钟预算限制下,像真实的研究和工程工作那样,持续数小时不断改进一个产出物?

实验结果:

AutoLab 为智能体提供了 36 个由专家精心设计的任务,涵盖系统优化、模型开发、CUDA 内核和谜题四个领域,每个任务都从一个正确但刻意设计为次优的基线开始。

在对 17 个前沿模型的评测中,决定成功与否的主要因素并非首次尝试的质量,而是持久性——反复进行基准测试、编辑代码并融合实证反馈。

Claude-opus-4.6 在这一循环中表现出色,而大多数其他模型要么提前退出,要么耗尽预算却几乎毫无进展。

论文:https://arxiv.org/abs/2606.05080

在我们的学院学习如何构建高效的 AI 智能体:https://academy.dair.ai


AutoLab:前沿模型能否解决长时域自动化研究与工程任务?

来源:https://arxiv.org/html/2606.05080 Zhangchen Xu1,11*Junda Chen4Yue Huang5Dongfu Jiang8,10Jiefeng Chen12 Hang Hua13Zijian Wu7Zheyuan Liu5Zexue He2Lichi Li14 Shizhe Diao10Jiaxin Pei2Jinsung Yoon12Hao Zhang4Mengdi Wang6 Radha Poovendran1Misha Sra3Alex Pentland2,9Zichen Chen2,3,11*

摘要

科学与工程的进步从根本上是一个长时域迭代过程:提出变更、运行实验、衡量结果并持续优化产出物。然而,现有的前沿模型基准测试主要评估单轮响应或短时域智能体轨迹,无法捕捉在长时间跨度内持续迭代改进的挑战。为弥补这一空白,我们提出 AutoLab——一个面向超长时域闭环优化的新基准测试。AutoLab 包含 36 个真实的、由专家精心设计的任务,横跨四个多元领域:系统优化、谜题与挑战、模型开发以及 CUDA 内核优化。每个任务均从一个正确但刻意设为次优的基线出发,要求智能体在严格的时钟预算内对其持续改进。对 17 个最先进模型的评测结果表明,决定成功的主要因素并非智能体初次尝试的质量,而是其反复进行基准测试、编辑代码并融合实证反馈的持久性。claude-opus-4.6 展现出强大的长时域优化能力,而大多数前沿模型(包括若干专有模型)要么提前终止,要么几乎毫无进展地耗尽了预算。这些结果凸显了时间意识与持续迭代对自主智能体的重要性。我们开源了完整的基准测试、评测框架和任务产出物,以加速真正具备长时域能力的智能体研究。

代码:autolabhq/autolab (https://github.com/autolabhq/autolab) 网站:autolab.moe (https://autolab.moe/)

参见图1:AutoLab 对 36 个任务、4 个类别的前沿模型进行基准测试,此处展示 11 个提供商的旗舰模型(每个提供商一个)。*上方:*模型按 Avg@3(实心柱)从左到右排序;半透明延伸部分表示 Best@3。*下方:*四张玫瑰图,每个类别一张,每片花瓣的长度代表该模型在该类别的 Avg@3。claude-opus-4.6 在所有四个类别及总体排名中均位列第一;各类别的第二名各有不同。

1 引言

前沿 LLM 智能体正越来越多地被部署于以小时而非分钟计量的任务上,从训练后模型(Rank et al., 2026 (https://arxiv.org/html/2606.05080#bib.bib61))、优化底层系统(Chi et al., 2026 (https://arxiv.org/html/2606.05080#bib.bib3)),到运行开放式研究循环(Novikov et al., 2025 (https://arxiv.org/html/2606.05080#bib.bib54),Karpathy, 2026 (https://arxiv.org/html/2606.05080#bib.bib55))。此类任务的进展是迭代式的:通过审查产出物、提出变更、运行实验、衡量结果并经历多轮循环不断优化,而非依赖单次正确回答。在长时域内维持这一循环需要管理时间、算力和嘈杂的实证信号,而短时单步评测的设计并不能测试当今前沿模型是否具备这种能力。

当前评测体系对这一范式的关注严重不足。静态单轮编程基准测试主要考察模型知识与一次性编程能力(Jain et al., 2025a (https://arxiv.org/html/2606.05080#bib.bib24),Zhuo et al., 2025 (https://arxiv.org/html/2606.05080#bib.bib25))。另一波智能体基准测试已扩展至短期交互式轨迹(Mialon et al., 2023 (https://arxiv.org/html/2606.05080#bib.bib31),Liu et al., 2024 (https://arxiv.org/html/2606.05080#bib.bib34),Jimenez et al., 2024 (https://arxiv.org/html/2606.05080#bib.bib30),Merrill and others, 2026 (https://arxiv.org/html/2606.05080#bib.bib40))。直到近期,才有少数基准测试开始探索长达数小时的闭环优化(Ouyang and others, 2025 (https://arxiv.org/html/2606.05080#bib.bib57),Nathani et al., 2025 (https://arxiv.org/html/2606.05080#bib.bib44),Mang et al., 2025 (https://arxiv.org/html/2606.05080#bib.bib2),Lupidi et al., 2026 (https://arxiv.org/html/2606.05080#bib.bib45)),但这些工作在规模和通用性上仍有局限。

两大主要障碍制约了长时域持续优化的研究进展。其一,最令人印象深刻的实证优化演示——如 AlphaEvolve(Novikov et al., 2025 (https://arxiv.org/html/2606.05080#bib.bib54)) 和某机构的 AutoResearch 智能体(Karpathy, 2026 (https://arxiv.org/html/2606.05080#bib.bib55))——都与高度工程化的、特定于模型的框架、工具和搜索策略深度耦合,这种协同设计使得难以孤立评估底层模型的真实贡献。其二,现有长时域基准测试覆盖范围狭窄,每个基准通常只针对单一领域,如 ML 工程(Rank et al., 2026 (https://arxiv.org/html/2606.05080#bib.bib61),Starace et al., 2025 (https://arxiv.org/html/2606.05080#bib.bib60))、系统与内核优化(Ouyang and others, 2025 (https://arxiv.org/html/2606.05080#bib.bib57),Mang et al., 2025 (https://arxiv.org/html/2606.05080#bib.bib2))或现实工程(Chi et al., 2026 (https://arxiv.org/html/2606.05080#bib.bib3))。关键在于,这些基准测试无一能够同时实现对科学与工程领域的广泛覆盖、高难度以及抗饱和性。

为填补这一空白,我们提出 AutoLab——一个面向 LLM 智能体超长时域闭环优化的基准测试。AutoLab 中的每个任务提供一个正确但刻意次优的基线,要求智能体在严格的时钟预算内对其进行迭代改进。AutoLab 包含 36 个可执行任务,分属四个类别:系统优化、谜题与挑战、模型开发以及 CUDA 内核优化。其设计遵循三项核心承诺:(1) 任务必须要求在长时域内进行持续的实证迭代,而非单步修补;(2) 评分必须连续且经过良好校准,跨越运行时间、困惑度和参数量等异构指标奖励局部进展;(3) 评估必须具备抗作弊能力,通过封闭式评估器、正确性门控、不可变文件检查和对抗性审计加以保障。

长时域优化代表一种独特的能力,无法简单归结为智能体编程能力。这一点在我们的主评测(图1 (https://arxiv.org/html/2606.05080#S0.F1))中得到了清晰验证——该评测共消耗了 2,544 个时钟小时和 86 亿个 token。claude-opus-4.6 在所有子领域中均位列第一,Avg@3 达到 0.68,而第二名仅为 0.50。许多在其他方面表现强劲的模型(包括 gpt-5.4)的失败原因与原始编程能力无关:一些模型在极少探索后便终止运行,而另一些则耗尽了整个预算却未能产出有效的最终方案(第4节 (https://arxiv.org/html/2606.05080#S4))。我们的轨迹分析进一步表明,最终性能与持久性的相关性远强于与一次性解决方案质量的相关性:在整个轨迹中反复进行基准测试、编辑代码并融合实证反馈的智能体,最终取得了显著更好的成果。这些发现表明,持久性、时间意识和实证搜索将成为未来自主研究智能体的核心能力。

综上,本文做出以下主要贡献:

  • 高质量基准测试。 我们推出 AutoLab——首个专为跨多元领域超长时域闭环优化而设计的基准测试。
  • 大规模评测。 我们在统一标准化框架下、相同实验条件下,对 17 个最先进模型(包含四个专有前沿模型)进行了系统性评测。
  • 深度轨迹分析与洞见。 通过对所有轨迹的综合分析(包括对 302 条零分记录的人工检查),我们揭示了关键行为局限——最突出的是缺乏时间意识(过早终止与预算耗尽两种极端)。我们进一步证明,决定最终性能的主导因素并非智能体初始解的质量,而是其持续迭代优化的坚持性。

2 AutoLab 基准测试

我们介绍 AutoLab——一个以小时而非分钟衡量时域的研究与工程任务前沿模型评测基准。其设计围绕三项核心承诺展开。任务必须是超长时域的,要求在多个周期内进行持续的实证迭代,而非单步修补;评分必须连续且经过校准,超越通过/失败的二元判断,支持跨异构指标(如运行时间、困惑度和参数量)的细粒度相对比较,并在前沿能力不断提升时抵抗饱和;验证必须抗作弊,因为性能基准测试暴露的捷径攻击面远大于补丁式基准测试。本节其余部分将正式定义任务规范(第2.1节 (https://arxiv.org/html/2606.05080#S2.SS1)),描述任务的来源与质量控制方式(第2.2节 (https://arxiv.org/html/2606.05080#S2.SS2)),并报告 AutoLab 的最终构成(第2.3节 (https://arxiv.org/html/2606.05080#S2.SS3))。

参见图2:AutoLab 任务设计与评估流程。

2.1 任务设计

AutoLab 中的一个任务由指令环境验证器参考解时钟预算五部分组成(图2 (https://arxiv.org/html/2606.05080#S2.F2))。指令是对优化目标的自然语言描述。环境是一个容器化沙箱(根据工作负载类型为 CPU 或单 GPU),内含一个具有可运行但未经优化基线实现的代码库,以及智能体在开发过程中可调用的本地评估脚本。验证器是用于生成最终得分的保留评估套件。参考解是一个由人类编写的实现,用于锚定评分尺度,且永远不会暴露给智能体。预算限定了智能体读取代码库、修改代码、运行代码并进行迭代所可用的时钟时间。

在评估过程中,智能体在沙箱内接收指令和环境,必须在规定预算内产出一个经验证器评估的修改实现。任务本质上是交互式的:智能体可以自由编辑代码库、执行实现、分析性能、调用本地评估脚本、检查中间输出并迭代优化方案。在回合结束时,验证器对修改后的实现运行保留输入并报告指标,再将其映射为相对于参考解的连续得分。

基线与参考解。 AutoLab 任务中的基线正确但次优,代表一个可运行但未经优化的初步实现所能达到的水平。参考解则要求在指标上有非平凡的改进(系统优化任务通常至少提升一个数量级,模型开发任务则需有明确的统计增益),以确保每个任务都有真实的提升空间供智能体探索。

评分。m(x) 为实现 x 所达到的原始指标值(如运行时间、验证困惑度、吞吐量或参数量),m_{\mathcal{B}}m_{\mathcal{R}} 分别为基线和参考解所达到的指标值。AutoLab 采用两种锚定评分方案,均归一化至区间 [0,1],并以基线和参考解的性能水平为锚点:

  • 对数拉伸。 对于有意义的改进往往跨越数个数量级的性能优化任务,采用对数评分方案:s(x)=\mathrm{clip}\!\left(\tfrac{1}{2}\cdot\frac{\log(m_{\mathcal{B}}/m(x))}{\log(m_{\mathcal{B}}/m_{\mathcal{R}})},\,0,\,1\right)(1)(对于指标值越高越好的情况,方向类推)。最小改进门控确保在智能体超越基线之前 s(x)=0,从而在基线处得 s=0,在参考解处得 s=0.5,性能趋近实际最优时趋向 1.0。该门控防止对基线无实质改进的提交获得部分分数。需注意,性能优化任务的 m_{\mathcal{B}}m_{\mathcal{R}} 均为依赖沙箱的量,已针对本基准测试所用的具体沙箱环境和硬件配置进行了仔细校准。
  • 线性。 对于具有自然有界质量指标的任务,采用两个锚点之间的线性插值:s(x)=\mathrm{clip}\!\Big(\frac{m_{\mathcal{B}}-m(x)}{m_{\mathcal{B}}-m_{\mathcal{R}}},\,0,\,1\Big)(2)(同样,指标越高越好时方向类推)。因此,基线处 s=0,参考解处 s=1.0

m_{\mathcal{B}}m_{\mathcal{R}} 的具体选取以及任务特定的可行性门控详见附录A.2 (https://arxiv.org/html/2606.05080#A1.SS2)。锚定相对评分服务于两个重要目的:一是支持跨原始单位不可通约任务的有意义聚合,二是与二元通过/失败基准测试不同,它能奖励真实的局部进展。后者在 AutoLab 的难度级别下尤为关键,因为大多数智能体提交的结果均介于基线与参考解之间。

时钟预算。 时钟预算从最小谜题任务的 2 小时到端到端 LLM 开发任务的 12 小时不等。预算的设定需平衡两个相互竞争的目标:一是保留真实的开发工作流程(通常需要大量执行和迭代时间),二是将评估成本控制在基准测试规模下可行且可复现的范围内。因此,部分模型训练任务刻意围绕较小的模型和较短的训练步骤进行设计,而非采用前沿规模的训练运行,使智能体能够在时间预算内完成多轮优化迭代。这进一步考验了智能体在不同条件下有效分配时间的能力。

相似文章

LongDS-Bench:论长时域智能体数据分析的失败

arXiv cs.LG

介绍LongDS,一个用于评估LLM智能体在长时域、多轮数据分析任务上的基准。评估表明,即使最佳模型也仅达到48.45%的准确率,性能随轮次急剧下降,凸显出维护分析状态是关键瓶颈。

@dair_ai: https://x.com/dair_ai/status/2061104052818108476

X AI KOLs Following

三篇值得关注的人工智能论文综述:SkillOpt 将技能文档视为可训练参数以优化冻结的智能体;一种新方法将智能体工作流编译成模型权重,实现100倍成本降低;而 AutoScientists 引入了一个去中心化智能体团队,无需中央规划者即可进行长期科学研究。

@rohanpaul_ai: 当前前沿智能体在现实自动化方面的准备程度远不及它们在基准测试中的分数所暗示的那样。本文提…

X AI KOLs Following

本文介绍了“智能体最终考试”(Agents' Last Exam),这是一个测试AI智能体在55个数字工作领域中进行真实专家工作能力的基准。目前最强的智能体在大多数任务上失败,在最难的层级中平均通过率仅为2.6%,揭示了基准分数与现实世界自动化准备程度之间的巨大差距。