利用专家代理进行自动研究:开发高效且非平凡的训练配方

Hugging Face Daily Papers 论文

摘要

本文介绍了一种自动研究框架,利用专家代理通过代码执行与反馈的经验闭环,迭代优化训练配方。该系统借助谱系反馈(lineage feedback),无需人工干预,即可在 Parameter Golf 和 NanoChat 等任务上自主提升性能。

我们将自动研究视为由外部度量驱动的一个封闭经验闭环。每次提交的试验都包含一个假设、可执行的代码编辑、由评估器决定的结果,以及用于塑造下一次提议的反馈。其输出并非生成的论文或单一的模型检查点,而是一条可审计的轨迹,涵盖提议、代码差异、实验、评分及失败标签。我们通过部署专家代理来实例化这一闭环,这些代理将配方空间进行分区,并在试验间共享经测量的谱系信息。核心的实证发现是:谱系反馈使代理能够将评估器结果(包括崩溃、预算超支、尺寸失败以及准确率关卡未达标等)转化为后续程序级别的配方编辑,而非一次性建议。在一次性设置和启动后,经过 1,197 次主要运行试验以及 600 次 Parameter Golf 控制试验,人类在搜索过程中未选择任何提议、编辑配方、覆盖评分或修复失败试验。在三次主要运行中,相同的提交试验闭环将 Parameter Golf 验证集每字节位(bpb)降低了 0.81%,使 NanoChat-D12 CORE 提升了 38.7%,并将 CIFAR-10 Airbench96 的墙钟时间减少了 4.59%,每个任务均由其独立的外部评估器和合法性检查进行度量。轨迹包括对 157 次主要运行提交及程序重写(例如 NanoChat 注意力内核路径变更)进行的严格架构领域审计。在此范围内,该闭环自主编写代码、提交实验、吸收反馈,并在各环境中应用并结合已知技术,从而改进公开的初始配方。
查看原文
查看缓存全文

缓存时间: 2026/05/08 07:37

论文页面 - 利用专家代理进行自动研究,开发有效且非平凡的训练配方

来源:https://huggingface.co/papers/2605.05724

摘要

自动研究作为一个实证循环运行,其中代理根据评估反馈迭代优化代码,从而在无需人工干预的情况下实现多项任务的性能提升。

我们将自动研究研究为由外部度量驱动的封闭实证循环 (https://huggingface.co/papers?q=empirical%20loop)。每次提交的试验都包含一个假设、一个可执行的代码修改、一个由评估器拥有的结果 (https://huggingface.co/papers?q=evaluator-owned%20outcome),以及塑造下一次提议的反馈。输出结果不是一篇生成的论文或单个模型检查点,而是一条可审计的轨迹,包含提议、代码差异、实验、得分和失败标签。我们利用专家代理 (https://huggingface.co/papers?q=specialist%20agents) 实例化此循环,这些代理划分配方空间 (https://huggingface.co/papers?q=recipe%20surfaces) 并在试验间共享度量的谱系。核心实证发现是,谱系反馈 (https://huggingface.co/papers?q=lineage%20feedback) 使代理能够将评估器结果(包括崩溃、预算超支、规模失败和准确率门控未通过)转化为后续的编程级配方修改 (https://huggingface.co/papers?q=program-level%20recipe%20edits),而非一次性建议。在一次性设置和启动后,经过 1,197 次头条运行试验加上 600 次 Parameter Golf 控制试验,人类未选择提议、修改配方、覆盖得分或在搜索期间修复失败的试验。在三次头条运行中,相同的提交试验循环将 Parameter Golf 验证 bpb 降低了 0.81%,将 NanoChat-D12 CORE 提高了 38.7%,并将 CIFAR-10 Airbench96 墙上时钟时间减少了 4.59%,每项任务均由其各自的外部评估器和合法性检查进行衡量。追踪记录包括对 157 次头条运行提交和程序重写 (https://huggingface.co/papers?q=program%20rewrites) 的严格架构领域审计 (https://huggingface.co/papers?q=architecture-domain%20audit),例如 NanoChat 注意力内核路径的变更。在此范围内,该循环自主编写代码、提交实验、吸收反馈、在每个环境中应用并结合已知技术,并改进公开的初始配方。

查看 arXiv 页面 (https://arxiv.org/abs/2605.05724)查看 PDF (https://arxiv.org/pdf/2605.05724)GitHub1 (https://github.com/cxcscmu/Auto-Research-Recipes)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.05724)

在你的代理中获取此论文:

hf papers read 2605\.05724

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有链接到此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.05724 以从此页面链接它。

引用此论文的数据集 0

没有链接到此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.05724 以从此页面链接它。

引用此论文的 Spaces 0

没有链接到此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.05724 以从此页面链接它。

包含此论文的收藏集 0

没有包含此论文的收藏集

将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接它。

相似文章

我们距离真正的自动研究还有多远?

arXiv cs.AI

本文介绍了ResearchArena,一个用于评估自动研究智能体的框架,并发现虽然智能体生成的论文在仅稿件评审下看似具有竞争力,但结合工件的评审揭示了实验严谨性方面的严重缺陷,没有一篇论文达到顶级会议的接收标准。

AutoResearch AI:迈向AI驱动的科学发现研究自动化

Hugging Face Daily Papers

一篇综述论文,探讨了AI从特定任务助手到工作流级研究自动化工具的转变,将AutoResearch定义为AI驱动的科学工作流自动化的光谱,并分析了自主性、可重复性和问责制方面的挑战。