@stanfordnlp: 大量 @stanfordnlp 的工作在 @icmlconf。首尔见!迈向基于执行的自动化AI研究 @ChengleiSi …
摘要
本文研究了基于执行的自动化AI研究,通过构建一个自动执行器来实现LLM生成的想法并运行实验。结果表明,执行引导的进化搜索可以找到在预训练和后训练任务中显著优于基线的方法。
查看缓存全文
缓存时间: 2026/05/14 22:44
很多@stanfordnlp的工作将在@icmlconf上展示。首尔见!🇰🇷 迈向基于执行结果的自动化AI研究 @ChengleiSi @ZitongYang0 @YejinChoinka @EmmanuelCandes @Diyi_Yang @tatsu_hashimoto LLM真的能自动化前沿LLM研究吗?论文:https://t.co/PDgSqnN2Th https://t.co/7d0EW3l19i — # 迈向基于执行结果的自动化AI研究 来源:https://arxiv.org/html/2601.14525 杨梓彤、Yejin Choi、Emmanuel Candès、Diyi Yang、Tatsunori Hashimoto ###### 摘要 自动化AI研究在加速科学发现方面潜力巨大。然而,当前的LLM常常产生看似合理但实际无效的想法。基于执行结果的接地(Execution grounding)可能有所帮助,但自动化执行是否可行,以及LLM能否从执行反馈中学习,尚不清楚。为了探究这些问题,我们首先构建了一个自动化执行器,用于实现想法并启动大规模并行GPU实验来验证其有效性。接着,我们将两个现实的研究问题——LLM预训练和后训练——转化为执行环境,并证明我们的自动化执行器能够实现从前沿LLM中采样的大部分想法。我们分析了两种从执行反馈中学习的方法:进化搜索和强化学习。基于执行结果的进化搜索样本效率高:在后训练中,它找到的方法显著优于GRPO基线(69.4% vs 48.0%);在预训练中,它找到的配方优于nanoGPT基线(19.7分钟 vs 35.9分钟),而整个过程仅需十个搜索轮次。前沿LLM在搜索过程中常能产生有意义的算法思路,但往往早期就趋于饱和,仅偶尔展现出扩展趋势。另一方面,基于执行奖励的强化学习则遭遇模式崩溃。它成功提高了创意生成模型的平均奖励,但未能提升上限,因为模型收敛于简单想法。我们深入分析了已执行的想法和训练动态,以促进未来在基于执行结果的自动化AI研究方面的努力。 机器学习,ICML ## 1 引言 参考图1 图1:我们构建了一个自动化想法执行器,包含实现器(Implementer)、调度器(Scheduler)和工作节点(Worker)。然后,我们利用这个自动化执行器作为奖励函数,通过进化搜索和强化学习来教导LLM生成更有效的想法。在学习过程中,我们仅更新创意生成器。 我们设想自动化AI研究:LLM生成研究想法以解决重要的研究问题,将想法实现为代码,运行实验验证有效性,并持续从执行结果中学习。如果成功,这些自动化AI研究人员能在巨大的搜索空间中自动开发并识别出有效的研究想法,从而可扩展地将计算转化为科学发现;这些被发现的想法则能反过来改进前沿AI模型本身,实现递归的自我改进。尽管前景诱人,自动化AI研究却受限于LLM生成有效想法的能力。Si等人(2025b)和Si等人(2025a)通过大规模专家评审评估了LLM生成的研究想法的质量,发现LLM的想法往往看起来令人信服,但由人类研究人员执行后却效果不佳。这凸显了将想法生成基于执行结果的需求。然而,以自动化且可扩展的方式获取想法的执行结果颇具挑战性,尤其我们目标是开放式的AI研究,任何用自然语言表达的想法都在我们的行动空间内。为了解决这个问题,我们设计并构建了一个高通量的自动化想法执行器,能够实现数百个模型生成的想法,并并行执行它们以获得实验结果的执行反馈。为了研究我们能在多大程度上自动化现实的LLM研究,我们选择了两个GPU密集型的研究问题(LLM预训练和后训练),这些问题对提升LLM能力至关重要,作为我们自动化AI研究人员的研究环境。我们首次证明,我们的自动化执行器能够实现LLM在这些具有挑战性的开放式研究问题上生成的大部分想法,在使用Claude-4.5-Sonnet和Claude-4.5-Opus的预训练环境中,执行率超过90%。为了分析基于执行反馈是否能够改进LLM的想法生成,我们为两个环境定义了客观性能指标,并分析了两种流行学习算法(进化搜索和强化学习)的优缺点。我们使用自动化执行器来引导进化搜索。在十个搜索轮次内,这种基于执行结果的搜索找到了一个后训练配方,在1.5B模型的数学推理后训练任务上优于GRPO基线(69.4% vs 48.0%);以及一个预训练配方,在最小化达到目标验证损失所需的训练时间(表1)上优于nanoGPT基线(19.7分钟 vs 35.9分钟)。我们的分析表明,模型除了调整超参数外,还能生成算法层面的想法,并且在相同的采样预算下,进化搜索显著优于最佳N选一(best-of-N)。然而,在分析扩展趋势时,只有Claude-4.5-Opus展现出清晰的扩展曲线,而Claude-4.5-Sonnet和GPT-5都倾向于早期饱和。然后,我们将自动化执行器作为RL循环中的奖励函数,对Qwen3-30B进行微调。我们表明,使用执行奖励的RL能够成功提高创意生成模型的平均奖励,类似于典型的基于可验证奖励的RL。然而,RL并未改善最大奖励,而最大奖励对于科学发现来说是更重要的指标。事实上,我们发现RL导致创意生成模型收敛于少数易于实现的想法,导致思考长度和想法多样性的崩溃。总之,我们开发了一个大规模的自动化想法执行器系统,能够为开放式且现实的研究问题实现研究想法。利用这个自动化执行器,我们深入分析了LLM创意生成器如何通过进化搜索和强化学习从执行反馈中学习以提升有效性。基于执行结果的进化搜索样本效率高且有效,但扩展性有限。基于执行奖励的RL则遭遇多样性崩溃,且未能提升上限。我们还对已执行的想法进行了广泛分析,并提出了改进现有学习算法的有前景的方向。总的来说,我们展示了将LLM创意生成基于自动化执行结果的可行性和潜力,并揭示了未来改进所需的重要局限性。 表1:我们的基于执行结果的搜索与提供的基线及最佳人类专家的性能比较。后训练任务是对1.5B模型进行数学推理微调,评估指标为验证集准确率。预训练任务是在FineWeb上训练124M Transformer,评估指标为达到3.28验证损失所需的训练时间。 ## 2 自动化想法执行器 为了衡量模型生成想法的有效性,我们构建了一个自动化执行器,它以自然语言的研究想法作为输入,生成代码实现,在后端运行实验,并返回想法的基准性能作为最终输出。 ### 2.1 用于创意生成的研究环境 我们的自动化想法执行器基于特定的研究环境,每个环境包含一个研究问题、一个基线代码库、一个用于衡量性能的基准、固定的训练和评估数据以及评估指标。在构建研究环境时,我们旨在选择那些开放性的研究问题,以便有足够的空间进行新的算法创新,同时拥有完善的基线和基准评估指标,使得衡量有效性变得直接。在本工作中,我们为自动化AI研究人员构建了一个预训练环境和一个后训练环境。111我们将我们的环境和想法执行轨迹开源在https://github.com/NoviScl/Automated-AI-Researcher。 预训练任务:改进nanoGPT 在nanoGPT环境中,我们提供了一个改编自nanoGPT speedrun(Jordan et al., 2024)的基线代码库,并要求创意生成模型头脑风暴可能的改进。原始的speedrun任务是在8块H100 GPU上,最小化在FineWeb语料库(Penedo et al., 2024)上预训练124M GPT-2模型(Radford et al., 2019)达到验证集损失3.28所需的时间。我们对原始的speedrun设置进行了若干修改。首先,在论文后续章节进行搜索和RL实验时,我们引入了一个代理奖励,等于验证损失的倒数(1/loss)。这样,我们可以将训练时间固定为25分钟,并要求模型在此固定预算下直接优化代理奖励,从而避免不同运行之间运行时间差异过大。我们在大多数图中报告验证损失或代理奖励指标,仅对最佳解决方案测量并报告训练时间指标,以便直接与原始nanoGPT speedrun排行榜上的人类专家解决方案比较。其次,为了避免任何可能的奖励黑客行为,我们冻结了所有评估超参数,并实现了一个一次只预测一个未来token的推理函数,以防止模型改变注意力机制导致泄露未来token(这在我们的初始开发过程中发生过多次)。我们在每次训练运行后的最终验证中使用这个推理函数。 后训练任务:改进GRPO 在GRPO环境中,基线是GRPO算法(Shao et al., 2024)的一个实现,该算法在MATH数据集(Hendrycks et al., 2021)上对Qwen2.5-Math-1.5B检查点(Yang et al., 2024)进行微调。创意生成模型需要头脑风暴比基线更有效的后训练算法。我们指定了一个固定的训练时间预算,并使用训练过程中在MATH验证集上的最大准确率作为评估指标。为防止奖励黑客,我们将所有验证相关代码放在一个单独的文件中,不允许自动执行器访问或修改它。 在两个环境中,我们都没有对创意生成的范围设置任何限制,因此从广泛的超参数调整到新颖的模型架构或训练算法都在范围内。 ### 2.2 系统设计 自动化想法执行器可以看作一个高级API,其输入是一批自然语言想法,输出是每个想法的基准性能。该API有三个核心构建块(图1): - 实现器(Implementer) – 为想法生成代码差异(diff)文件并应用这些更改的服务器; - 调度器(Scheduler) – 接收代码库列表并分配资源运行实验的中间层; - 工作节点(Worker) – 配备GPU的集群,运行实验并上传实验结果。 #### 实现器 实现器托管在一台具有高IO容量的CPU机器上。首先,用户提交一批自然语言想法。然后,对于每个想法,实现器向代码执行LLM发起并行API调用,以获得一个可以修补到对应基线代码库的diff文件。为了优化效率,我们向代码执行LLM提供想法和基线代码库,并行采样10个代码diff文件。对于每个样本,如果生成的diff文件无法修补到原始代码库,我们提供补丁日志并要求模型修改原始生成。我们重复这种顺序的自我修订,最多2次。最后,我们返回第一个可以成功修补到基线代码库的diff文件。修补后的代码库随后作为.zip文件提交到云存储桶。 #### 调度器 按照设定的时钟频率,调度器从云存储下载新的代码库。如果代码库尚未执行,调度器会检查给定研究环境的资源需求,并准备要提交的任务配置。 #### 工作节点 一旦调度器找到可用资源,它会将准备好的任务配置与GPU资源连接,并初始化工作节点来运行实验。如果实验执行成功,工作节点会将实验日志(包括所有性能指标)与完整的元数据(想法内容、代码更改、执行日志等)一起上传到另一个云存储桶(wandb)。如果执行失败(例如,由于代码实现中的错误),工作节点会停止。用户(即创意生成模型)随后可以下载执行结果,并查看其提交的一批想法的性能及完整训练日志。 参考图 (a) 自我执行(GRPO) 参考图 (b) 自我执行(nanoGPT) 参考图 (c) GPT-5执行(GRPO) 参考图 (d) GPT-5执行(nanoGPT) 图2:在GRPO和nanoGPT环境下,自我执行(上一行)与GPT-5执行(下一行)的模型性能比较。GRPO的基线准确率为0.480,nanoGPT的基线损失为3.255。大多数模型的完成率很高,尤其是在自我执行下。 ## 3 对LLM创意生成器和执行器的基准测试 基于执行结果的反馈循环的前提条件是,当前的LLM既能充当创意生成器,也能充当执行器,这样我们才能获得有意义的奖励信号供模型学习。为了检验这个前提条件,我们首先对各种前沿LLM作为创意生成器和执行器进行基准测试。 ### 3.1 端到端创意生成与执行 在第一种设置中,我们从LLM中采样想法,并使用相同的LLM作为代码执行模型来执行其自身的想法。我们从Claude-4.5-Opus、Claude-4.5-Sonnet和GPT-5中采样并执行了50个想法,并测量了几个指标:(1)完成率:成功执行并产生有效(非零)实验结果的想法的百分比;(2)平均性能:50个样本中所有成功执行的想法的平均验证准确率或损失;(3)最佳性能:所有已执行想法中的最高验证准确率或最低验证损失。我们在图2的上一行展示了结果。值得注意的是,大部分采样的想法确实可以成功执行,其中Claude-4.5-Opus和Claude-4.5-Sonnet的执行率显著高于GPT-5。此外,这些模型的最佳N选一(N=50)性能已经可以击败原始基线解决方案。例如,在GRPO环境中,Claude-4.5-Sonnet的最大准确率达到了60.4%,而基线为48.0%;在nanoGPT环境中,Claude-4.5-Opus的最低损失达到了3.237,而基线为3.255。 ### 3.2 使用相同执行器比较不同创意生成器 在第二种设置中,我们固定执行器模型为……
相似文章
@stanfordnlp:众多@stanfordnlp的工作亮相@icmlconf。首尔见!Contextualized Privacy Defense for LLM Agents Yule Wen, @Stev…
该论文提出了上下文防御指令(CDI),一种用于LLM代理隐私防御的新范式,使用强化学习训练的指导模型生成针对具体步骤、具有上下文感知的指导,在隐私保护和有用性之间实现了更好的平衡。
@stanfordnlp:本周的 NLP 研讨会,我们很高兴邀请到来自 Boston University 的 @najoungkim!日期和时间:5 月 14 日星期四…
Stanford NLP 举办研讨会,Boston University 的 Najoung Kim 将就利用大型语言模型桥接认知科学和加速语言学研究进行探讨,并强调了对严谨实验框架的需求。
@stanfordnlp:学习成功训练最先进语言模型的细节(即“技巧”或“秘诀”)有两条路径……
斯坦福NLP将CS336课程推广为学习成功训练最先进语言模型技巧的途径。
@rohanpaul_ai: Meta、斯坦福、谷歌等多家顶级实验室的新论文提出了AutoResearchClaw。表明自动化研究改进…
来自Meta、斯坦福和谷歌的一篇新论文提出了AutoResearchClaw,该方法通过整合故障恢复、辩论和选择性人工输入来改进自动化研究。它在ARC-Bench上以54.7%的优势超越了AI Scientist v2,并揭示了当受到过程约束而非无限自由时,自主性会得到增强。
@dair_ai: https://x.com/dair_ai/status/2053495521243799717
DAIR AI 的每周精选汇总了多项重磅研究论文,包括通过内化并行推理提升模型性能的 HeavySkill,以及利用强化学习优化智能体编排的 Sakana AI Conductor。此外,还涵盖了 Meta FAIR 关于自我改进预训练的研究工作。