AutoLab:前沿模型能否解决长周期自动研究与工程任务?
摘要
AutoLab提出了一个基准,用于评估前沿模型在多个领域中的长周期迭代优化能力。结果表明,持续性和时间意识比初始性能更为关键,其中claude-opus-4.6展现了强大的能力,而许多模型过早终止。
查看缓存全文
缓存时间: 2026/06/04 03:41
论文页面 - AutoLab:前沿模型能否解决长周期自动化研究与工程任务?
来源:https://huggingface.co/papers/2606.05080
作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
AutoLab 基准评估了前沿模型在多个领域中执行长周期迭代优化的能力,结果揭示:持续迭代与时间感知比初始性能质量更为关键。
科学和工程进步本质上是一个长周期的迭代过程:提出变更、运行实验、测量结果、不断改进工件。然而,现有的基准测试主要评估单轮回答或短周期智能体轨迹,未能捕捉在长时间跨度下进行持续迭代改进的挑战。为填补这一空白,我们引入了 AutoLab——一个用于超长周期闭环优化的新基准。AutoLab 包含 36 个由专家精心策划的真实任务,覆盖四个不同领域:系统优化、谜题与挑战、模型开发以及 CUDA 内核优化。每个任务从一个正确但刻意次优的基线开始,挑战智能体在严格的挂钟时间预算内改进它。对 17 个最先进模型的评估显示,成功的主要预测因素并非智能体初次尝试的质量,而是其持续进行基准测试、编辑并融入实证反馈的毅力。虽然 claude-opus-4.6 展现出较强的长周期优化能力,但大多数前沿模型(包括多个专有模型)要么过早终止,要么在预算内取得了极少进展。这些结果强调了时间感知和持续迭代在自主智能体中的重要性。我们开源了完整的基准测试、评估框架和任务工件,以加速真正具备长周期能力的智能体研究。
查看 arXiv 页面 (https://arxiv.org/abs/2606.05080)
查看 PDF (https://arxiv.org/pdf/2606.05080)
项目页面 (https://autolab.moe/)
GitHub84 (https://github.com/autolabhq/autolab)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.05080)
在你的智能体中获取此论文:
hf papers read 2606\.05080
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接到此论文
在模型 README.md 中引用 arxiv.org/abs/2606.05080 以从此页面链接。
引用此论文的数据集0
没有数据集链接到此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.05080 以从此页面链接。
引用此论文的 Space0
没有 Space 链接到此论文
在 Space README.md 中引用 arxiv.org/abs/2606.05080 以从此页面链接。
包含此论文的收藏0
没有收藏包含此论文
将此论文添加到收藏 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
@dair_ai:关于长时程智能体的杰出论文(建议收藏)——类似人类,如何让智能体在困难任务中坚持下去?
AutoLab 是一个新基准测试,针对 36 个由专家精心设计的长时程任务(系统优化、模型开发、CUDA 内核、谜题),对 17 个前沿模型进行评估。研究发现,决定成功的关键因素是持久性——而非初始尝试的质量。Claude-opus-4.6 在所有类别中名列前茅,而大多数其他模型要么过早终止,要么在几乎没有进展的情况下耗尽了预算。
利用专家代理进行自动研究:开发高效且非平凡的训练配方
本文介绍了一种自动研究框架,利用专家代理通过代码执行与反馈的经验闭环,迭代优化训练配方。该系统借助谱系反馈(lineage feedback),无需人工干预,即可在 Parameter Golf 和 NanoChat 等任务上自主提升性能。
扮演真正的研究者:一套评估前沿大语言模型及代理系统在研究生命周期中的基准测试集
本文介绍了AARR(扮演真正的研究者)基准系列,旨在评估前沿大语言模型和代理系统在细粒度研究场景中的表现。首个基准AARRI-Bench显示,即使表现最佳的代理成功率也仅为68.3%,凸显了其在领域敏感性和细微推理能力方面的不足。
LongDS-Bench:论长时域智能体数据分析的失败
介绍LongDS,一个用于评估LLM智能体在长时域、多轮数据分析任务上的基准。评估表明,即使最佳模型也仅达到48.45%的准确率,性能随轮次急剧下降,凸显出维护分析状态是关键瓶颈。
前沿AI(Claude Code、Codex、Autoresearch)在AI研发中表现不佳
据报道,像Claude Code、Codex和Autoresearch这样的前沿AI模型在人工智能研究与开发任务中表现失败。