AutoLLMResearch:通过从低成本学习来优化高成本,训练研究智能体以自动化大型语言模型实验配置
摘要
本文介绍了 AutoLLMResearch,这是一个智能体框架,旨在通过在低保真环境中学习并外推至高成本设置,实现昂贵的大型语言模型(LLM)实验配置的自动化。其目标是减少可扩展 LLM 研究中的计算浪费以及对专家直觉的依赖。
查看缓存全文
缓存时间: 2026/05/13 04:12
论文页面 - AutoLLMResearch: 训练用于自动化 LLM 实验配置的研究智能体 – 从低成本学习,优化高成本
来源: https://huggingface.co/papers/2605.11518
摘要
名为 AutoLLMResearch 的智能体框架通过从多保真度实验环境中学习,并启用跨保真度外推以实现高效的配置识别,从而自动化高昂的大语言模型实验配置。
有效配置可扩展的大语言模型(LLM)实验——涵盖架构设计、超参数调整及更多方面——对于推进 LLM 研究至关重要,因为糟糕的配置选择会浪费大量的计算资源,并阻碍模型发挥其全部潜力。以往的自动化方法旨在适用于低成本环境,其中反复的试错是可行的,但可扩展的 LLM 实验过于昂贵,无法进行如此广泛的迭代。据我们所知,目前没有任何工作解决高昂 LLM 实验配置的自动化问题,使得该问题劳动密集且依赖专家直觉。鉴于这一差距,我们提出了 AutoLLMResearch,一个智能体框架 (https://huggingface.co/papers?q=agentic%20framework),模拟人类研究人员如何从低保真度实验中学习可泛化的原则,并外推以在昂贵的 LLM 设置中高效识别有前景的配置。核心挑战在于如何使智能体通过与捕捉 LLM 配置空间结构的多保真度实验环境的交互来学习。为实现这一点,我们提出了一个包含两个关键组件的系统性框架:1) LLMConfig-Gym (https://huggingface.co/papers?q=LLMConfig-Gym),一个多保真度环境 (https://huggingface.co/papers?q=multi-fidelity%20environment),涵盖四个关键的 LLM 实验任务,并得到超过一百万 GPU 小时的可验证实验结果的支持;2) 一个结构化训练管道,将配置研究表述为长期马尔可夫决策过程 (https://huggingface.co/papers?q=Markov%20Decision%20Process),并相应地激励跨保真度外推 (https://huggingface.co/papers?q=cross-fidelity%20extrapolation) 推理。在保留实验上对多种强基线方法的广泛评估证明了该框架的有效性、泛化能力和可解释性,支持其作为可扩展的现实世界 LLM 实验自动化的实用且通用的解决方案的潜力。
查看 arXiv 页面 (https://arxiv.org/abs/2605.11518) 查看 PDF (https://arxiv.org/pdf/2605.11518) 项目页面 (https://arxiv.org/pdf/2605.11518) GitHub1 (https://github.com/taichengguo/AutoLLMResearch) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.11518)
在你的智能体中获取这篇论文:
hf papers read 2605\.11518
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
没有链接到此论文的模型
在模型的 README.md 中引用 arxiv.org/abs/2605.11518 以从此页面链接它。
引用此论文的数据集 0
没有链接到此论文的数据集
在数据集的 README.md 中引用 arxiv.org/abs/2605.11518 以从此页面链接它。
引用此论文的 Space 0
没有链接到此论文的 Space
在 Space 的 README.md 中引用 arxiv.org/abs/2605.11518 以从此页面链接它。
包含此论文的收藏集 0
没有包含此论文的收藏集
将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接它。
相似文章
用 LLM 优化 LLM:面向测试时扩展的智能体发现方法
本文提出了 AutoTTS,这是一种环境驱动的框架,通过将测试时扩展(TTS)策略的发现过程形式化为控制器合成,自动发现用于大型语言模型(LLM)的测试时扩展策略。该框架在数学推理基准测试上展示了更优的准确率-成本权衡,且计算开销极小。
利用专家代理进行自动研究:开发高效且非平凡的训练配方
本文介绍了一种自动研究框架,利用专家代理通过代码执行与反馈的经验闭环,迭代优化训练配方。该系统借助谱系反馈(lineage feedback),无需人工干预,即可在 Parameter Golf 和 NanoChat 等任务上自主提升性能。
@ihtesham2005: 如果你仍认为 AI 代理无法进行真正的研究,这篇论文将终结这一争论。来自谷歌和 Meta 的研究人员提出……
来自谷歌和 Meta 的研究人员提出了 AutoTTS 框架,该框架利用 AI 代理在没有人工干预的情况下,自动发现并优化大语言模型(LLM)的推理时缩放策略。该代理成功识别出了复杂的、协同工作的推理机制,在较低的计算成本下优于人工设定的基准。
SkillMaster:迈向大语言模型智能体的自主技能掌握
本文介绍了 SkillMaster,一种训练框架,使大语言模型智能体能够通过轨迹知情审查和反事实效用评估,自主地创建、优化和选择技能。
研究人员让AI智能体优化LLM推理,Token用量锐减70%
研究人员开发了AutoTTS框架,通过AI智能体自动设计控制策略来优化LLM推理,在保持高推理准确率的同时,将Token消耗降低约70%。