利用专家代理进行自动研究:开发高效且非平凡的训练配方
摘要
本文介绍了一种自动研究框架,利用专家代理通过代码执行与反馈的经验闭环,迭代优化训练配方。该系统借助谱系反馈(lineage feedback),无需人工干预,即可在 Parameter Golf 和 NanoChat 等任务上自主提升性能。
查看缓存全文
缓存时间: 2026/05/08 07:37
论文页面 - 利用专家代理进行自动研究,开发有效且非平凡的训练配方
来源:https://huggingface.co/papers/2605.05724
摘要
自动研究作为一个实证循环运行,其中代理根据评估反馈迭代优化代码,从而在无需人工干预的情况下实现多项任务的性能提升。
我们将自动研究研究为由外部度量驱动的封闭实证循环 (https://huggingface.co/papers?q=empirical%20loop)。每次提交的试验都包含一个假设、一个可执行的代码修改、一个由评估器拥有的结果 (https://huggingface.co/papers?q=evaluator-owned%20outcome),以及塑造下一次提议的反馈。输出结果不是一篇生成的论文或单个模型检查点,而是一条可审计的轨迹,包含提议、代码差异、实验、得分和失败标签。我们利用专家代理 (https://huggingface.co/papers?q=specialist%20agents) 实例化此循环,这些代理划分配方空间 (https://huggingface.co/papers?q=recipe%20surfaces) 并在试验间共享度量的谱系。核心实证发现是,谱系反馈 (https://huggingface.co/papers?q=lineage%20feedback) 使代理能够将评估器结果(包括崩溃、预算超支、规模失败和准确率门控未通过)转化为后续的编程级配方修改 (https://huggingface.co/papers?q=program-level%20recipe%20edits),而非一次性建议。在一次性设置和启动后,经过 1,197 次头条运行试验加上 600 次 Parameter Golf 控制试验,人类未选择提议、修改配方、覆盖得分或在搜索期间修复失败的试验。在三次头条运行中,相同的提交试验循环将 Parameter Golf 验证 bpb 降低了 0.81%,将 NanoChat-D12 CORE 提高了 38.7%,并将 CIFAR-10 Airbench96 墙上时钟时间减少了 4.59%,每项任务均由其各自的外部评估器和合法性检查进行衡量。追踪记录包括对 157 次头条运行提交和程序重写 (https://huggingface.co/papers?q=program%20rewrites) 的严格架构领域审计 (https://huggingface.co/papers?q=architecture-domain%20audit),例如 NanoChat 注意力内核路径的变更。在此范围内,该循环自主编写代码、提交实验、吸收反馈、在每个环境中应用并结合已知技术,并改进公开的初始配方。
查看 arXiv 页面 (https://arxiv.org/abs/2605.05724)查看 PDF (https://arxiv.org/pdf/2605.05724)GitHub1 (https://github.com/cxcscmu/Auto-Research-Recipes)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.05724)
在你的代理中获取此论文:
hf papers read 2605\.05724
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
没有链接到此论文的模型
在模型 README.md 中引用 arxiv.org/abs/2605.05724 以从此页面链接它。
引用此论文的数据集 0
没有链接到此论文的数据集
在数据集 README.md 中引用 arxiv.org/abs/2605.05724 以从此页面链接它。
引用此论文的 Spaces 0
没有链接到此论文的 Space
在 Space README.md 中引用 arxiv.org/abs/2605.05724 以从此页面链接它。
包含此论文的收藏集 0
没有包含此论文的收藏集
将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接它。
相似文章
AutoResearchClaw:自我强化的自主研究与人机协作
AutoResearchClaw是一个多智能体自主研究系统,通过结构化辩论、自我修复执行和人机协作来改进科学发现,在ARC-Bench基准上比之前的系统高出54.7%。
AutoLLMResearch:通过从低成本学习来优化高成本,训练研究智能体以自动化大型语言模型实验配置
本文介绍了 AutoLLMResearch,这是一个智能体框架,旨在通过在低保真环境中学习并外推至高成本设置,实现昂贵的大型语言模型(LLM)实验配置的自动化。其目标是减少可扩展 LLM 研究中的计算浪费以及对专家直觉的依赖。
NanoResearch:协同进化技能、记忆与策略以实现个性化研究自动化
NanoResearch 是一个多智能体框架,旨在通过协同进化技能、记忆和策略,适应个人用户的偏好和研究风格,从而实现个性化研究自动化。
我们距离真正的自动研究还有多远?
本文介绍了ResearchArena,一个用于评估自动研究智能体的框架,并发现虽然智能体生成的论文在仅稿件评审下看似具有竞争力,但结合工件的评审揭示了实验严谨性方面的严重缺陷,没有一篇论文达到顶级会议的接收标准。
AutoResearch AI:迈向AI驱动的科学发现研究自动化
一篇综述论文,探讨了AI从特定任务助手到工作流级研究自动化工具的转变,将AutoResearch定义为AI驱动的科学工作流自动化的光谱,并分析了自主性、可重复性和问责制方面的挑战。