利用专家代理进行自动研究：开发高效且非平凡的训练配方

Hugging Face Daily Papers 2026/05/07 00:00 论文

摘要

本文介绍了一种自动研究框架，利用专家代理通过代码执行与反馈的经验闭环，迭代优化训练配方。该系统借助谱系反馈（lineage feedback），无需人工干预，即可在 Parameter Golf 和 NanoChat 等任务上自主提升性能。

我们将自动研究视为由外部度量驱动的一个封闭经验闭环。每次提交的试验都包含一个假设、可执行的代码编辑、由评估器决定的结果，以及用于塑造下一次提议的反馈。其输出并非生成的论文或单一的模型检查点，而是一条可审计的轨迹，涵盖提议、代码差异、实验、评分及失败标签。我们通过部署专家代理来实例化这一闭环，这些代理将配方空间进行分区，并在试验间共享经测量的谱系信息。核心的实证发现是：谱系反馈使代理能够将评估器结果（包括崩溃、预算超支、尺寸失败以及准确率关卡未达标等）转化为后续程序级别的配方编辑，而非一次性建议。在一次性设置和启动后，经过 1,197 次主要运行试验以及 600 次 Parameter Golf 控制试验，人类在搜索过程中未选择任何提议、编辑配方、覆盖评分或修复失败试验。在三次主要运行中，相同的提交试验闭环将 Parameter Golf 验证集每字节位（bpb）降低了 0.81%，使 NanoChat-D12 CORE 提升了 38.7%，并将 CIFAR-10 Airbench96 的墙钟时间减少了 4.59%，每个任务均由其独立的外部评估器和合法性检查进行度量。轨迹包括对 157 次主要运行提交及程序重写（例如 NanoChat 注意力内核路径变更）进行的严格架构领域审计。在此范围内，该闭环自主编写代码、提交实验、吸收反馈，并在各环境中应用并结合已知技术，从而改进公开的初始配方。

查看原文

查看缓存全文

缓存时间: 2026/05/08 07:37

论文页面 - 利用专家代理进行自动研究，开发有效且非平凡的训练配方

来源：https://huggingface.co/papers/2605.05724

摘要

自动研究作为一个实证循环运行，其中代理根据评估反馈迭代优化代码，从而在无需人工干预的情况下实现多项任务的性能提升。

我们将自动研究研究为由外部度量驱动的封闭实证循环 (https://huggingface.co/papers?q=empirical%20loop)。每次提交的试验都包含一个假设、一个可执行的代码修改、一个由评估器拥有的结果 (https://huggingface.co/papers?q=evaluator-owned%20outcome)，以及塑造下一次提议的反馈。输出结果不是一篇生成的论文或单个模型检查点，而是一条可审计的轨迹，包含提议、代码差异、实验、得分和失败标签。我们利用专家代理 (https://huggingface.co/papers?q=specialist%20agents) 实例化此循环，这些代理划分配方空间 (https://huggingface.co/papers?q=recipe%20surfaces) 并在试验间共享度量的谱系。核心实证发现是，谱系反馈 (https://huggingface.co/papers?q=lineage%20feedback) 使代理能够将评估器结果（包括崩溃、预算超支、规模失败和准确率门控未通过）转化为后续的编程级配方修改 (https://huggingface.co/papers?q=program-level%20recipe%20edits)，而非一次性建议。在一次性设置和启动后，经过 1,197 次头条运行试验加上 600 次 Parameter Golf 控制试验，人类未选择提议、修改配方、覆盖得分或在搜索期间修复失败的试验。在三次头条运行中，相同的提交试验循环将 Parameter Golf 验证 bpb 降低了 0.81%，将 NanoChat-D12 CORE 提高了 38.7%，并将 CIFAR-10 Airbench96 墙上时钟时间减少了 4.59%，每项任务均由其各自的外部评估器和合法性检查进行衡量。追踪记录包括对 157 次头条运行提交和程序重写 (https://huggingface.co/papers?q=program%20rewrites) 的严格架构领域审计 (https://huggingface.co/papers?q=architecture-domain%20audit)，例如 NanoChat 注意力内核路径的变更。在此范围内，该循环自主编写代码、提交实验、吸收反馈、在每个环境中应用并结合已知技术，并改进公开的初始配方。

查看 arXiv 页面 (https://arxiv.org/abs/2605.05724)查看 PDF (https://arxiv.org/pdf/2605.05724)GitHub1 (https://github.com/cxcscmu/Auto-Research-Recipes)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.05724)

在你的代理中获取此论文：

hf papers read 2605\.05724

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有链接到此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.05724 以从此页面链接它。

引用此论文的数据集 0

没有链接到此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.05724 以从此页面链接它。

引用此论文的 Spaces 0

没有链接到此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.05724 以从此页面链接它。

包含此论文的收藏集 0

没有包含此论文的收藏集

将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接它。

利用专家代理进行自动研究：开发高效且非平凡的训练配方

论文页面 - 利用专家代理进行自动研究，开发有效且非平凡的训练配方

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的收藏集 0

相似文章

AutoResearchClaw：自我强化的自主研究与人机协作

AutoLLMResearch：通过从低成本学习来优化高成本，训练研究智能体以自动化大型语言模型实验配置

NanoResearch：协同进化技能、记忆与策略以实现个性化研究自动化

我们距离真正的自动研究还有多远？

AutoResearch AI：迈向AI驱动的科学发现研究自动化

提交意见反馈