@Recursive_SI: https://x.com/Recursive_SI/status/2064980090702962699

X AI KOLs Timeline 2026/06/11 07:56 新闻

摘要

Recursive 发布了其自动化 AI 研究系统的早期成果，在固定预算语言模型训练、小模型训练速度以及 GPU 内核优化方面达到了业界领先水平，并开源了相关制品。

https://t.co/IlLyWptydX

查看原文

查看缓存全文

缓存时间: 2026/06/11 15:41

迈向自动化AI研究的第一步

Recursive自动化AI研究系统在模型训练与GPU内核基准测试中的早期成果

今天，我们发布Recursive自动化AI研究系统的早期成果。在三个基准测试中，该系统均取得领先成果：固定预算语言模型训练、小模型训练速度，以及GPU内核优化。

该系统为特定目标自动化研究流程：提出想法、实现它、运行实验、验证结果，并利用所学知识选择下一个实验。它在长期跨度内运行多条研究线程，保留先前实验的有用上下文，合并有前景的分支，在将改进性能视为真正进展前，通过验证环节排除奖励黑客行为和方差干扰。该系统设计为可扩展，并利用开放式算法原理，借鉴了我们团队及其他团队此前关于递归自我改进AI的研究成果。

我们在兼具实际重要性与快速反馈循环的基准测试上进行了验证。这些测试考验AI进步的三个核心杠杆：更好的训练算法、更快的训练速度，以及更高效的硬件利用。它们也特别适合自动化研究，因为具有清晰的指标、相对较低的方差，以及可加固以防御奖励黑客行为的评估器。

我们开源了这些运行的产物，以便他人检查并基于系统输出进行构建。

案例研究一：NanoChat自动研究

Andrej Karpathy的NanoChat自动研究代码库是自动化研究系统的热门起点。任务是在单块GPU上，于五分钟固定预算内，将小型语言模型训练至最低验证损失（以每字节比特数BPB衡量）。这对我们的系统而言是自然的测试，因为实验速度快、方差低，且奖励黑客行为相对容易检测。

或许正因如此，围绕该设定已形成一个公开协作项目。autoresearch@home将原始设定扩展为协作环境，数十位人类和数百个智能体共同改进性能。这为我们提供了比Karpathy单次过夜运行更强的对比基准。我们想测试系统能否超越整个社区产生的解决方案。

我们的系统从Autoresearch代码库所用的相同初始种子方案出发。最初在NVIDIA H100 GPU上搜索，随后将发现的方案移植至NVIDIA B200 GPU运行，以便与公开结果公平比较。在移除先前最佳autoresearch@home方案中的微小奖励黑客行为，并在10个随机种子上评估后，其平均性能为0.9372 BPB。我们的系统找到了一个达到0.9109 BPB的方案，改进了0.0263 BPB。换种方式衡量，我们的方案达到Karpathy原始过夜自动研究BPB质量所需的训练时间，比最佳autoresearch@home方案缩短约1.3倍。

Autoresearch从一个已经过优化的模型出发，内含一些非平凡的设计决策。为此，我们测试了系统能否从一个更弱的起点——一个朴素初始实现（标准Transformer加AdamW）——做出改进。系统将模型从1.059 BPB改进至0.9344 BPB（在NVIDIA B200 GPU上评估），同样超越了autoresearch@home社区产生的最佳方案。这不一定证明独立重新发现，因为底层模型可能知晓许多公开技术，包括autoresearch@home社区使用或创造的技术，但它确实表明搜索过程能从更弱的起点组装出有竞争力的训练栈。最终方案在多个方面与公开最佳方案不同。

我们的系统提出了哪些修改？最佳方案并非由单一技巧驱动。它们结合了架构变化、短上下文记忆、辅助损失、注意力机制、优化器行为、权重衰减调度、编译器设置等多个方面。

最大的收益之一来自更丰富的短上下文记忆机制。基线已使用值嵌入；我们的系统扩展了这一想法，加入了哈希化的二元和三元嵌入表，通过可学习的门混合到注意力值路径中。这为模型提供了一种廉价方式，利用局部n-gram信息，而无需承担较慢的卷积或注意力密集型方法的耗时成本。

这与近期工作（如DeepSeek Engram，探索哈希表作为稀疏性轴）相关联。在我们的设定中，哈希表可以为约50M参数的模型增加10-20亿稀疏参数：大多数条目在给定批次上处于非激活状态，且查找成本低廉。类似的哈希表和n-gram思路也出现在顶尖的NanoGPT Speedrun提交中。系统通过将哈希化的二元和三元嵌入注入多个层的注意力值向量中，并为每层使用不同哈希以减少重复碰撞，从而将这类思想适配到固定预算场景。我们未见过使用这种精确变体的先前工作。

优化标准Transformer的运行使用了与我们最佳方案相同的部分技术，包括哈希表和平方ReLU MLP。但它也收敛于一个不同但同样有竞争力的最终栈，包括令牌移位、评估前的权重平均，以及字节级特征嵌入。这表明系统并非仅仅重复了另一运行中的发现。

NanoChat展示了要求系统改进固定预算训练如何导致许多复合的、预算感知的改进的发现。下一个测试是，在基准测试经过多年公开人类优化后，相同过程是否仍能找到收益。

案例研究二：NanoGPT Speedrun

NanoGPT Speedrun是一个类似的任务，但更难超越既有水平，因为一个大型社区已为之优化了两年多。该基准不要求固定时间预算内达到多低的验证损失，而是问：在单个HGX H100 8-GPU节点上，将一个小型GPT式模型在FineWeb文本数据集上训练至固定验证损失3.28需要多快。

这是一个成熟的社区努力，目前已有人类提交83次破纪录的贡献，以及数百个提议的拉取请求。自2024年中以来，训练时间从约45分钟压缩至79.7秒，经过一系列主要手工设计的提交。鉴于当前方案已高度优化，只剩下少数明显改进空间。

从当前领先方案出发，我们的系统发现了一组额外优化，将训练时间从79.7秒降至77.5秒，同时满足排行榜的验证损失显著性要求（平均验证损失≤3.28，p<0.01）。这与近期人类贡献的改进幅度相当或更大。

我们还测试了系统能否从一个更弱的起点取得进展。从一个较早的约15分钟方案出发，我们的系统在几天内达到了约185秒，接近人类排行榜2025年5月约180秒的水平。这不应被视为独立或独特的发现，因为底层模型可能见过该代码库，但系统找到了不同的最终方案，并以不同顺序添加了重叠的贡献。

77.5秒的方案并非单一优化。它结合了注意力精度、优化器行为、嵌入更新、调度选择及融合GPU内核的变化。每项改动都必须节省时间而不破坏训练稳定性。

尽管整个人类社区（有时借助AI辅助）花费数年时间解决此问题，Recursive的自动化AI研究系统仍发现了额外的改进。下一个案例研究向下移动一层，从小模型训练配方转向GPU内核。与前两个基准不同，内核优化更接近生产系统工作：它通常决定实际训练和推理工作负载的成本。

案例研究三：SOL-ExecBench

前两个基准优化小型语言模型训练运行。SOL-ExecBench则专注于编写快速、正确的GPU内核：支撑矩阵乘法、规约、归一化层、注意力组件、量化例程、融合块等操作的小型加速器程序。

该基准包含235个源自实际工作负载的内核编写任务。每个任务提供一个简单的参考PyTorch实现，定义了签名、张量形状、数据类型和数值契约（内核必须产生什么输出，以及与参考实现必须有多接近）。目标是在NVIDIA Blackwell B200 GPU上尽可能快地运行，同时产生相同结果至容差范围内。

基准报告一个光速分数（SOL）SOL-ExecBench分数：0.5对应基准的优化PyTorch基线，1.0对应基准的分析最佳性能估计。

我们联合运行了全部235个内核，以便系统能够将其发现跨相关任务复用（例如内存移动、分块、规约、向量化、融合的模式）。我们提供了标准性能分析工具，但并未特别针对内核工程调优系统。除了添加性能分析工具，我们使用与另外两个基准相同的系统来优化内核。

我们的系统达到了0.754的平均NVIDIA SOL-ExecBench分数，与硬件极限的差距相比之前排行榜最佳0.699减少了18%。

我们检查了几个高性能内核，发现解决方案包含一系列良好的内核工程实践和创造性解决方案。

虽然奖励黑客行为是我们在所有三个基准中都需应对的问题，但在SOL-ExecBench上尤其具有挑战性。一些候选方案利用评估设置而非实现真正更快的内核：缓存输出、依赖持久状态或利用计时测试的细节。

因此，我们在所有基准上将正确性审计视为研究系统的一部分。有希望的改进通过越来越严格的自动化检查，这些检查旨在区分真正的内核改进与基准特定漏洞。这大幅减少了奖励黑客行为，并成为循环本身的重要部分：随着搜索变得更强，评估者也必须变得更强。

SOL-ExecBench展示了我们的系统改进AI栈中完全不同部分的能力。它必须推理底层实现选择，生成候选内核，运行正确性和性能检查，并在相关任务间传输有用模式。

未来展望

这些结果是一个早期信号，表明我们的系统能够推动AI训练和基础设施任务的前沿，尤其当目标定义清晰、可衡量且足够快速以进行多次评估时。系统通过复合众多发现取得进展：发明新的优化方法，在更紧约束下重塑已知思想，调优重要的实现细节，以及在建模、优化和系统层组合改进。

在整个工作中，尤其随着搜索能力增强，一个关键挑战是奖励黑客行为（即确保系统解决预期任务而非利用漏洞满足任务字面要求并得高分，但违背任务意图）。我们实施了多种技术来避免和检测此类奖励黑客行为，包括迭代改进一个奖励黑客检测器（结合AI协助和/或人类反馈）。我们预计，随着我们应对更具挑战性的实际应用并创建更强大的自动化AI研究算法，这仍将是必要的。使此类系统契合任务的精神而非字面，将是创建自动化知识发现并以安全有益方式进行递归自我改进的系统的重大挑战。我们很高兴能继续致力于这一关键问题。

这里的许多收益提升了效率。这很重要，因为AI进步不仅来自更大的模型和更多的算力，也来自使现有系统训练更快、运行更便宜、硬件利用更有效。我们期望此类系统能降低智能成本：首先通过在当前系统中发现更好的工程权衡，并随时间推移，自动化前沿研究过程中更大的部分。

我们开源了这些运行的产物，以便他人检查并基于系统输出进行构建。如果你有兴趣构建使自动化研究更强大且对人类有益的系统，请申请加入我们。

全文、图表和产物可在我们网站上获取。

我们在Modal HGX H100 8-GPU节点上获得结果，并在Andromeda HGX H100 8-GPU节点上独立在噪声范围内确认了数值。我们正等待获取PrimeIntellect HGX H100 8-GPU节点（官方硬件）以向排行榜提交。

相似文章

迈向自动化AI研究的第一步 (12分钟阅读)

TLDR AI

Recursive 发布了一个自动化AI研究系统，在三个基准测试中取得了最先进的结果：固定预算语言模型训练、小模型训练速度和GPU内核优化。该系统自动化了研究循环，并开源了其运行中的产物。

@Recursive_SI: https://x.com/Recursive_SI/status/2054490801972166898

X AI KOLs Following

Recursive，一家由OpenAI、DeepMind等前研究负责人创立的人工智能初创公司，以6.5亿美元融资从隐身模式中走出，致力于通过开放式科学发现开发递归自我改进的AI，目标是实现超级智能。

@ChengleiSi：兴奋地分享我们在内部自动研究系统 @Recursive_SI 上取得的初步结果，我们在……上达到了SOTA

X AI KOLs Following

Recursive的自动AI研究系统通过在无需任务特定适配的情况下自动化研究循环，在NanoChat、NanoGPT Speedrun和GPU内核基准测试上达到了最先进的成果，并开源了相关工件以供进一步检验。

@MaxForAI: 田渊栋 @tydsh 的创业团队Recursive @Recursive_SI 发布了一个阶段性的成果：自动化AI研究系统这个系统里AI能自己完成「提出想法→实现→跑实验→验证→根据结果选下一个实验」这一整套研究循环。结果表明在目标清…

X AI KOLs Timeline

Recursive团队发布自动化AI研究系统，能自主完成研究循环，在多个基准上超越人类社区已有方案，如在NanoGPT Speedrun中将训练时间从79.7秒压缩至77.5秒，在SOL-ExecBench上将得分提升至0.754。

@josh_tobin_: 很多人都在问我我们在@Recursive_SI做什么。我们现在还不能透露太多，但我们想……

X AI KOLs Following

Josh Tobin预告了Recursive_SI的自动化研究员，展示了性能优化能力的早期演示。

迈向自动化AI研究的第一步

案例研究一：NanoChat自动研究

案例研究二：NanoGPT Speedrun

案例研究三：SOL-ExecBench

未来展望

相似文章

迈向自动化AI研究的第一步 (12分钟阅读)

@Recursive_SI: https://x.com/Recursive_SI/status/2054490801972166898

@ChengleiSi：兴奋地分享我们在内部自动研究系统 @Recursive_SI 上取得的初步结果，我们在……上达到了SOTA

@MaxForAI: 田渊栋 @tydsh 的创业团队Recursive @Recursive_SI 发布了一个阶段性的成果：自动化AI研究系统 这个系统里AI能自己完成「提出想法→实现→跑实验→验证→根据结果选下一个实验」这一整套研究循环。 结果表明在目标清…

@josh_tobin_: 很多人都在问我我们在@Recursive_SI做什么。我们现在还不能透露太多，但我们想……

提交意见反馈

@MaxForAI: 田渊栋 @tydsh 的创业团队Recursive @Recursive_SI 发布了一个阶段性的成果：自动化AI研究系统这个系统里AI能自己完成「提出想法→实现→跑实验→验证→根据结果选下一个实验」这一整套研究循环。结果表明在目标清…