AutoLab:前沿模型能否解决长周期自动研究与工程任务?

Hugging Face Daily Papers 论文

摘要

AutoLab提出了一个基准,用于评估前沿模型在多个领域中的长周期迭代优化能力。结果表明,持续性和时间意识比初始性能更为关键,其中claude-opus-4.6展现了强大的能力,而许多模型过早终止。

科学与工程进步本质上是一个长周期的迭代过程:提出变更、运行实验、测量结果,并不断优化制品。然而,现有的前沿模型基准主要评估单轮响应或短周期的智能体轨迹,未能捕捉长时间跨度内持续迭代改进的挑战。为填补这一空白,我们推出了AutoLab,一个用于超长周期闭环优化的新基准。AutoLab包含36个由专家精心策划的真实任务,涵盖四个不同领域:系统优化、谜题与挑战、模型开发以及CUDA内核优化。每个任务从一个正确但刻意次优的基线开始,挑战智能体在严格的挂钟时间预算内对其进行改进。对17个最先进模型的评估显示,成功的主要预测因素不是智能体初始尝试的质量,而是其在反复基准测试、编辑和整合经验反馈中的持续性。虽然claude-opus-4.6展现出强大的长周期优化能力,但大多数前沿模型(包括一些专有模型)要么过早终止,要么在预算耗尽时进展甚微。这些结果强调了自主智能体中时间意识和持续迭代的重要性。我们开源了完整的基准、评估框架和任务工件,以加速对真正具备长周期能力的智能体的研究。
查看原文
查看缓存全文

缓存时间: 2026/06/04 03:41

论文页面 - AutoLab:前沿模型能否解决长周期自动化研究与工程任务?

来源:https://huggingface.co/papers/2606.05080
作者:

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

摘要

AutoLab 基准评估了前沿模型在多个领域中执行长周期迭代优化的能力,结果揭示:持续迭代与时间感知比初始性能质量更为关键。

科学和工程进步本质上是一个长周期的迭代过程:提出变更、运行实验、测量结果、不断改进工件。然而,现有的基准测试主要评估单轮回答或短周期智能体轨迹,未能捕捉在长时间跨度下进行持续迭代改进的挑战。为填补这一空白,我们引入了 AutoLab——一个用于超长周期闭环优化的新基准。AutoLab 包含 36 个由专家精心策划的真实任务,覆盖四个不同领域:系统优化、谜题与挑战、模型开发以及 CUDA 内核优化。每个任务从一个正确但刻意次优的基线开始,挑战智能体在严格的挂钟时间预算内改进它。对 17 个最先进模型的评估显示,成功的主要预测因素并非智能体初次尝试的质量,而是其持续进行基准测试、编辑并融入实证反馈的毅力。虽然 claude-opus-4.6 展现出较强的长周期优化能力,但大多数前沿模型(包括多个专有模型)要么过早终止,要么在预算内取得了极少进展。这些结果强调了时间感知和持续迭代在自主智能体中的重要性。我们开源了完整的基准测试、评估框架和任务工件,以加速真正具备长周期能力的智能体研究。

查看 arXiv 页面 (https://arxiv.org/abs/2606.05080)
查看 PDF (https://arxiv.org/pdf/2606.05080)
项目页面 (https://autolab.moe/)
GitHub84 (https://github.com/autolabhq/autolab)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.05080)

在你的智能体中获取此论文:

hf papers read 2606\.05080

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2606.05080 以从此页面链接。

引用此论文的数据集0

没有数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.05080 以从此页面链接。

引用此论文的 Space0

没有 Space 链接到此论文

在 Space README.md 中引用 arxiv.org/abs/2606.05080 以从此页面链接。

包含此论文的收藏0

没有收藏包含此论文

将此论文添加到收藏 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

@dair_ai:关于长时程智能体的杰出论文(建议收藏)——类似人类,如何让智能体在困难任务中坚持下去?

X AI KOLs Following

AutoLab 是一个新基准测试,针对 36 个由专家精心设计的长时程任务(系统优化、模型开发、CUDA 内核、谜题),对 17 个前沿模型进行评估。研究发现,决定成功的关键因素是持久性——而非初始尝试的质量。Claude-opus-4.6 在所有类别中名列前茅,而大多数其他模型要么过早终止,要么在几乎没有进展的情况下耗尽了预算。

LongDS-Bench:论长时域智能体数据分析的失败

arXiv cs.LG

介绍LongDS,一个用于评估LLM智能体在长时域、多轮数据分析任务上的基准。评估表明,即使最佳模型也仅达到48.45%的准确率,性能随轮次急剧下降,凸显出维护分析状态是关键瓶颈。