AutoLLMResearch：通过从低成本学习来优化高成本，训练研究智能体以自动化大型语言模型实验配置

Hugging Face Daily Papers 2026/05/12 00:00 论文

摘要

本文介绍了 AutoLLMResearch，这是一个智能体框架，旨在通过在低保真环境中学习并外推至高成本设置，实现昂贵的大型语言模型（LLM）实验配置的自动化。其目标是减少可扩展 LLM 研究中的计算浪费以及对专家直觉的依赖。

有效配置可扩展的大型语言模型（LLM）实验——涵盖架构设计、超参数调优及其他方面——对于推进 LLM 研究至关重要，因为配置不当会浪费大量计算资源，并阻碍模型发挥其全部潜力。以往的自动化方法主要针对低成本场景设计，在这些场景中，反复试错是可行的；然而，可扩展的 LLM 实验成本过高，无法进行如此广泛的迭代。据我们所知，目前尚无工作解决高成本 LLM 实验配置的自动化问题，这使得该问题劳动密集且高度依赖专家直觉。受此差距的启发，我们提出了 AutoLLMResearch，这是一个智能体框架，它模仿人类研究人员如何从低保真实验中学习可泛化的原则，并外推以在昂贵的 LLM 设置中高效识别有前景的配置。核心挑战在于如何让智能体通过与多保真度实验环境的交互来学习，该环境捕捉了 LLM 配置空间的结构。为实现这一目标，我们提出了一个包含两个关键组件的系统性框架：1) LLMConfig-Gym，一个多保真度环境，涵盖了四个关键的 LLM 实验任务，并由超过一百万 GPU 小时的可验证实验结果提供支持；2) 一个结构化的训练管道，将配置研究 formulate 为长视界马尔可夫决策过程（Markov Decision Process），并相应地激励跨保真度的外推推理。在预留实验上针对多种强基线方法的广泛评估表明，我们的框架具有有效性、泛化性和可解释性，支持其作为可扩展的实际世界 LLM 实验自动化的实用且通用解决方案的潜力。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/13 04:12

论文页面 - AutoLLMResearch: 训练用于自动化 LLM 实验配置的研究智能体 – 从低成本学习，优化高成本

来源: https://huggingface.co/papers/2605.11518

摘要

名为 AutoLLMResearch 的智能体框架通过从多保真度实验环境中学习，并启用跨保真度外推以实现高效的配置识别，从而自动化高昂的大语言模型实验配置。

有效配置可扩展的大语言模型（LLM）实验——涵盖架构设计、超参数调整及更多方面——对于推进 LLM 研究至关重要，因为糟糕的配置选择会浪费大量的计算资源，并阻碍模型发挥其全部潜力。以往的自动化方法旨在适用于低成本环境，其中反复的试错是可行的，但可扩展的 LLM 实验过于昂贵，无法进行如此广泛的迭代。据我们所知，目前没有任何工作解决高昂 LLM 实验配置的自动化问题，使得该问题劳动密集且依赖专家直觉。鉴于这一差距，我们提出了 AutoLLMResearch，一个智能体框架 (https://huggingface.co/papers?q=agentic%20framework)，模拟人类研究人员如何从低保真度实验中学习可泛化的原则，并外推以在昂贵的 LLM 设置中高效识别有前景的配置。核心挑战在于如何使智能体通过与捕捉 LLM 配置空间结构的多保真度实验环境的交互来学习。为实现这一点，我们提出了一个包含两个关键组件的系统性框架：1) LLMConfig-Gym (https://huggingface.co/papers?q=LLMConfig-Gym)，一个多保真度环境 (https://huggingface.co/papers?q=multi-fidelity%20environment)，涵盖四个关键的 LLM 实验任务，并得到超过一百万 GPU 小时的可验证实验结果的支持；2) 一个结构化训练管道，将配置研究表述为长期马尔可夫决策过程 (https://huggingface.co/papers?q=Markov%20Decision%20Process)，并相应地激励跨保真度外推 (https://huggingface.co/papers?q=cross-fidelity%20extrapolation) 推理。在保留实验上对多种强基线方法的广泛评估证明了该框架的有效性、泛化能力和可解释性，支持其作为可扩展的现实世界 LLM 实验自动化的实用且通用的解决方案的潜力。

查看 arXiv 页面 (https://arxiv.org/abs/2605.11518) 查看 PDF (https://arxiv.org/pdf/2605.11518) 项目页面 (https://arxiv.org/pdf/2605.11518) GitHub1 (https://github.com/taichengguo/AutoLLMResearch) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.11518)

在你的智能体中获取这篇论文：

hf papers read 2605\.11518

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有链接到此论文的模型

在模型的 README.md 中引用 arxiv.org/abs/2605.11518 以从此页面链接它。

引用此论文的数据集 0

没有链接到此论文的数据集

在数据集的 README.md 中引用 arxiv.org/abs/2605.11518 以从此页面链接它。

引用此论文的 Space 0

没有链接到此论文的 Space

在 Space 的 README.md 中引用 arxiv.org/abs/2605.11518 以从此页面链接它。

包含此论文的收藏集 0

没有包含此论文的收藏集

将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接它。

AutoLLMResearch：通过从低成本学习来优化高成本，训练研究智能体以自动化大型语言模型实验配置

论文页面 - AutoLLMResearch: 训练用于自动化 LLM 实验配置的研究智能体 – 从低成本学习，优化高成本

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Space 0

包含此论文的收藏集 0

相似文章

用 LLM 优化 LLM：面向测试时扩展的智能体发现方法

利用专家代理进行自动研究：开发高效且非平凡的训练配方

@ihtesham2005: 如果你仍认为 AI 代理无法进行真正的研究，这篇论文将终结这一争论。来自谷歌和 Meta 的研究人员提出……

SkillMaster：迈向大语言模型智能体的自主技能掌握

研究人员让AI智能体优化LLM推理，Token用量锐减70%

提交意见反馈