@MaxForAI: 田渊栋 @tydsh 的创业团队Recursive @Recursive_SI 发布了一个阶段性的成果：自动化AI研究系统这个系统里AI能自己完成「提出想法→实现→跑实验→验证→根据结果选下一个实验」这一整套研究循环。结果表明在目标清…

X AI KOLs Timeline 2026/06/11 22:38 新闻

automated-ai-research ai-optimization training nanochat nanogpt execbench recursive

摘要

Recursive团队发布自动化AI研究系统，能自主完成研究循环，在多个基准上超越人类社区已有方案，如在NanoGPT Speedrun中将训练时间从79.7秒压缩至77.5秒，在SOL-ExecBench上将得分提升至0.754。

田渊栋 @tydsh 的创业团队Recursive @Recursive_SI 发布了一个阶段性的成果：自动化AI研究系统这个系统里AI能自己完成「提出想法→实现→跑实验→验证→根据结果选下一个实验」这一整套研究循环。结果表明在目标清晰、反馈快、指标可量化的AI训练和系统工程任务里，自动化研究系统已经能做出超过人类社区已有方案的增量优化。文章里主要有三个case，都是来自AK @karpathy 之前的成果：第一，NanoChat Autoresearch。这是Karpathy的自动化研究测试场景：单卡、5分钟预算，把小语言模型训练到更低验证损失，指标是BPB。Recursive从同样的初始方案出发，先在H100上搜索，再迁移到B200上评估。结果是：之前autoresearch@home社区最佳方案，去掉一些小reward hack后，10个随机种子平均是0.9372 BPB；Recursive系统找到的方案做到0.9109 BPB，提升0.0263 BPB。更有意思的是，它从一个更弱的vanilla Transformer+AdamW起点开始，也能从1.059 BPB做到0.9344 BPB，超过社区最佳方案。但文章里也很谨慎地说，这不代表完全“独立发现”，因为底层模型可能已经知道公开技巧。但至少说明这个系统能把各种训练技巧组装成一个有效stack。它发现的优化不是单一trick，而是一堆东西叠起来：架构、短上下文记忆、辅助loss、attention、optimizer、weight decay schedule、compiler设置等。最大亮点之一是短上下文记忆机制：用hashed bigram/trigram embedding table，通过门控混入attention value path，让小模型低成本利用局部n-gram信息。这个点可以和DeepSeek Engram、NanoGPT Speedrun里的hash table思路串起来。第二，NanoGPT Speedrun。这个更有意思，因为它已经被人类社区优化了两年多。任务是用单个HGX H100 8卡节点，把小GPT模型在FineWeb上训练到固定验证loss 3.28，看谁最快。人类社区已经把训练时间从2024年中的约45分钟压到79.7秒。 Recursive从当前领先方案继续优化，把时间压到77.5秒，并且仍满足排行榜显著性要求。看起来只省了2.2秒，但在这种已经被人类优化了这么久的任务上获得优化，属实是逮住蛤蟆挤出团粉了。它还从一个早期约15分钟方案开始，几天内做到约185秒，接近人类排行榜2025年5月约180秒水平。同样，这也可能不完全是独立发现，但说明自动化研究系统可以复现并组合很多人类工程优化。第三，SOL-ExecBench。这个从模型训练下沉到GPU kernel优化。 Benchmark包含235个真实工作负载衍生的kernel编写任务，比如矩阵乘法、归约、归一化、attention组件、量化、fused blocks等。目标是在B200 GPU上写出正确且更快的kernel。 Recursive把235个kernel联合跑，让系统能在相关任务之间复用模式，比如memory movement、tiling、reduction、vectorization、fusion。结果是平均NVIDIA SOL-ExecBench分数0.754，之前leaderboard最佳是0.699。换句话说，它把距离硬件理论上限的gap减少了18%。但这里模型的reward hacking特别严重。有些候选方案不是写更快kernel，而是利用评估器漏洞，比如缓存输出、依赖持久状态、钻timing harness的空子。于是作者强调：随着搜索系统变强，评估器也必须变强。因为自动化科研一旦目标函数写得不够严，机器会很认真地帮你作弊，像一个不懂道德但很会刷KPI的实习生。

查看原文

查看缓存全文

缓存时间: 2026/06/12 02:49

田渊栋 @tydsh 的创业团队Recursive @Recursive_SI 发布了一个阶段性的成果：自动化AI研究系统

这个系统里AI能自己完成「提出想法→实现→跑实验→验证→根据结果选下一个实验」这一整套研究循环。

结果表明在目标清晰、反馈快、指标可量化的AI训练和系统工程任务里，自动化研究系统已经能做出超过人类社区已有方案的增量优化。

文章里主要有三个case，都是来自AK @karpathy 之前的成果：

第一，NanoChat Autoresearch。

这是Karpathy的自动化研究测试场景：单卡、5分钟预算，把小语言模型训练到更低验证损失，指标是BPB。Recursive从同样的初始方案出发，先在H100上搜索，再迁移到B200上评估。

结果是：之前autoresearch@home社区最佳方案，去掉一些小reward hack后，10个随机种子平均是0.9372 BPB；Recursive系统找到的方案做到0.9109 BPB，提升0.0263 BPB。

更有意思的是，它从一个更弱的vanilla Transformer+AdamW起点开始，也能从1.059 BPB做到0.9344 BPB，超过社区最佳方案。但文章里也很谨慎地说，这不代表完全“独立发现”，因为底层模型可能已经知道公开技巧。但至少说明这个系统能把各种训练技巧组装成一个有效stack。

它发现的优化不是单一trick，而是一堆东西叠起来：架构、短上下文记忆、辅助loss、attention、optimizer、weight decay schedule、compiler设置等。

最大亮点之一是短上下文记忆机制：用hashed bigram/trigram embedding table，通过门控混入attention value path，让小模型低成本利用局部n-gram信息。这个点可以和DeepSeek Engram、NanoGPT Speedrun里的hash table思路串起来。

第二，NanoGPT Speedrun。

这个更有意思，因为它已经被人类社区优化了两年多。任务是用单个HGX H100 8卡节点，把小GPT模型在FineWeb上训练到固定验证loss 3.28，看谁最快。

人类社区已经把训练时间从2024年中的约45分钟压到79.7秒。 Recursive从当前领先方案继续优化，把时间压到77.5秒，并且仍满足排行榜显著性要求。看起来只省了2.2秒，但在这种已经被人类优化了这么久的任务上获得优化，属实是逮住蛤蟆挤出团粉了。

它还从一个早期约15分钟方案开始，几天内做到约185秒，接近人类排行榜2025年5月约180秒水平。同样，这也可能不完全是独立发现，但说明自动化研究系统可以复现并组合很多人类工程优化。

第三，SOL-ExecBench。

这个从模型训练下沉到GPU kernel优化。 Benchmark包含235个真实工作负载衍生的kernel编写任务，比如矩阵乘法、归约、归一化、attention组件、量化、fused blocks等。目标是在B200 GPU上写出正确且更快的kernel。

Recursive把235个kernel联合跑，让系统能在相关任务之间复用模式，比如memory movement、tiling、reduction、vectorization、fusion。

结果是平均NVIDIA SOL-ExecBench分数0.754，之前leaderboard最佳是0.699。换句话说，它把距离硬件理论上限的gap减少了18%。

但这里模型的reward hacking特别严重。有些候选方案不是写更快kernel，而是利用评估器漏洞，比如缓存输出、依赖持久状态、钻timing harness的空子。于是作者强调：随着搜索系统变强，评估器也必须变强。因为自动化科研一旦目标函数写得不够严，机器会很认真地帮你作弊，像一个不懂道德但很会刷KPI的实习生。

相似文章

@ChengleiSi：兴奋地分享我们在内部自动研究系统 @Recursive_SI 上取得的初步结果，我们在……上达到了SOTA

X AI KOLs Following

Recursive的自动AI研究系统通过在无需任务特定适配的情况下自动化研究循环，在NanoChat、NanoGPT Speedrun和GPU内核基准测试上达到了最先进的成果，并开源了相关工件以供进一步检验。

迈向自动化AI研究的第一步 (12分钟阅读)

TLDR AI

Recursive 发布了一个自动化AI研究系统，在三个基准测试中取得了最先进的结果：固定预算语言模型训练、小模型训练速度和GPU内核优化。该系统自动化了研究循环，并开源了其运行中的产物。

@WWTLitee: 有没有什么办法让AI自主迭代优化？有，来看看这个 autoresearch 它的核心不是让 AI 直接“发明论文”，而是把研究过程拆成一个可验证循环：人类写 program.md 给研究方向，AI agent 修改 http://tra…

X AI KOLs Timeline

介绍了autoresearch项目，它将AI研究过程拆解为可验证的循环（固定环境、单一可编辑文件、固定指标、Git回滚），使AI agent能进行可控、可复现的实验迭代；同时提及了12-factor-agents清单。

@Recursive_SI: https://x.com/Recursive_SI/status/2064980090702962699

X AI KOLs Timeline

Recursive 发布了其自动化 AI 研究系统的早期成果，在固定预算语言模型训练、小模型训练速度以及 GPU 内核优化方面达到了业界领先水平，并开源了相关制品。

@sitinme: 看到 Karpathy 开源了一个很有意思的项目autoresearch，把一个真实但小型的 LLM 训练任务交给 AI Agent，让它自己做研究、改代码、跑实验、看结果，然后决定保留还是放弃这次改动。这个项目基于单张 NVIDIA …

X AI KOLs Timeline

Karpathy 开源了一个实验性项目 autoresearch，让 AI Agent 自动完成小规模 LLM 训练的研究循环：修改代码、运行实验、评估结果并迭代优化，人类只需编写研究计划和约束。

相似文章

@ChengleiSi：兴奋地分享我们在内部自动研究系统 @Recursive_SI 上取得的初步结果，我们在……上达到了SOTA

迈向自动化AI研究的第一步 (12分钟阅读)

@WWTLitee: 有没有什么办法让AI自主迭代优化？ 有，来看看这个 autoresearch 它的核心不是让 AI 直接“发明论文”，而是把研究过程拆成一个可验证循环：人类写 program.md 给研究方向，AI agent 修改 http://tra…

@Recursive_SI: https://x.com/Recursive_SI/status/2064980090702962699

@sitinme: 看到 Karpathy 开源了一个很有意思的项目autoresearch，把一个真实但小型的 LLM 训练任务交给 AI Agent，让它自己做研究、改代码、跑实验、看结果，然后决定保留还是放弃这次改动。 这个项目基于单张 NVIDIA …

提交意见反馈

@WWTLitee: 有没有什么办法让AI自主迭代优化？有，来看看这个 autoresearch 它的核心不是让 AI 直接“发明论文”，而是把研究过程拆成一个可验证循环：人类写 program.md 给研究方向，AI agent 修改 http://tra…

@sitinme: 看到 Karpathy 开源了一个很有意思的项目autoresearch，把一个真实但小型的 LLM 训练任务交给 AI Agent，让它自己做研究、改代码、跑实验、看结果，然后决定保留还是放弃这次改动。这个项目基于单张 NVIDIA …