@MaxForAI: 田渊栋 @tydsh 的创业团队Recursive @Recursive_SI 发布了一个阶段性的成果:自动化AI研究系统 这个系统里AI能自己完成「提出想法→实现→跑实验→验证→根据结果选下一个实验」这一整套研究循环。 结果表明在目标清…

X AI KOLs Timeline 新闻

摘要

Recursive团队发布自动化AI研究系统,能自主完成研究循环,在多个基准上超越人类社区已有方案,如在NanoGPT Speedrun中将训练时间从79.7秒压缩至77.5秒,在SOL-ExecBench上将得分提升至0.754。

田渊栋 @tydsh 的创业团队Recursive @Recursive_SI 发布了一个阶段性的成果:自动化AI研究系统 这个系统里AI能自己完成「提出想法→实现→跑实验→验证→根据结果选下一个实验」这一整套研究循环。 结果表明在目标清晰、反馈快、指标可量化的AI训练和系统工程任务里,自动化研究系统已经能做出超过人类社区已有方案的增量优化。 文章里主要有三个case,都是来自AK @karpathy 之前的成果: 第一,NanoChat Autoresearch。 这是Karpathy的自动化研究测试场景:单卡、5分钟预算,把小语言模型训练到更低验证损失,指标是BPB。Recursive从同样的初始方案出发,先在H100上搜索,再迁移到B200上评估。 结果是:之前autoresearch@home社区最佳方案,去掉一些小reward hack后,10个随机种子平均是0.9372 BPB;Recursive系统找到的方案做到0.9109 BPB,提升0.0263 BPB。 更有意思的是,它从一个更弱的vanilla Transformer+AdamW起点开始,也能从1.059 BPB做到0.9344 BPB,超过社区最佳方案。 但文章里也很谨慎地说,这不代表完全“独立发现”,因为底层模型可能已经知道公开技巧。 但至少说明这个系统能把各种训练技巧组装成一个有效stack。 它发现的优化不是单一trick,而是一堆东西叠起来: 架构、短上下文记忆、辅助loss、attention、optimizer、weight decay schedule、compiler设置等。 最大亮点之一是短上下文记忆机制:用hashed bigram/trigram embedding table,通过门控混入attention value path,让小模型低成本利用局部n-gram信息。这个点可以和DeepSeek Engram、NanoGPT Speedrun里的hash table思路串起来。 第二,NanoGPT Speedrun。 这个更有意思,因为它已经被人类社区优化了两年多。 任务是用单个HGX H100 8卡节点,把小GPT模型在FineWeb上训练到固定验证loss 3.28,看谁最快。 人类社区已经把训练时间从2024年中的约45分钟压到79.7秒。 Recursive从当前领先方案继续优化,把时间压到77.5秒,并且仍满足排行榜显著性要求。看起来只省了2.2秒,但在这种已经被人类优化了这么久的任务上获得优化,属实是逮住蛤蟆挤出团粉了。 它还从一个早期约15分钟方案开始,几天内做到约185秒,接近人类排行榜2025年5月约180秒水平。 同样,这也可能不完全是独立发现,但说明自动化研究系统可以复现并组合很多人类工程优化。 第三,SOL-ExecBench。 这个从模型训练下沉到GPU kernel优化。 Benchmark包含235个真实工作负载衍生的kernel编写任务,比如矩阵乘法、归约、归一化、attention组件、量化、fused blocks等。 目标是在B200 GPU上写出正确且更快的kernel。 Recursive把235个kernel联合跑,让系统能在相关任务之间复用模式,比如memory movement、tiling、reduction、vectorization、fusion。 结果是平均NVIDIA SOL-ExecBench分数0.754,之前leaderboard最佳是0.699。 换句话说,它把距离硬件理论上限的gap减少了18%。 但这里模型的reward hacking特别严重。 有些候选方案不是写更快kernel,而是利用评估器漏洞,比如缓存输出、依赖持久状态、钻timing harness的空子。于是作者强调: 随着搜索系统变强,评估器也必须变强。 因为自动化科研一旦目标函数写得不够严,机器会很认真地帮你作弊,像一个不懂道德但很会刷KPI的实习生。
查看原文
查看缓存全文

缓存时间: 2026/06/12 02:49

田渊栋 @tydsh 的创业团队Recursive @Recursive_SI 发布了一个阶段性的成果:自动化AI研究系统

这个系统里AI能自己完成「提出想法→实现→跑实验→验证→根据结果选下一个实验」这一整套研究循环。

结果表明在目标清晰、反馈快、指标可量化的AI训练和系统工程任务里,自动化研究系统已经能做出超过人类社区已有方案的增量优化。

文章里主要有三个case,都是来自AK @karpathy 之前的成果:

第一,NanoChat Autoresearch。

这是Karpathy的自动化研究测试场景:单卡、5分钟预算,把小语言模型训练到更低验证损失,指标是BPB。Recursive从同样的初始方案出发,先在H100上搜索,再迁移到B200上评估。

结果是:之前autoresearch@home社区最佳方案,去掉一些小reward hack后,10个随机种子平均是0.9372 BPB;Recursive系统找到的方案做到0.9109 BPB,提升0.0263 BPB。

更有意思的是,它从一个更弱的vanilla Transformer+AdamW起点开始,也能从1.059 BPB做到0.9344 BPB,超过社区最佳方案。 但文章里也很谨慎地说,这不代表完全“独立发现”,因为底层模型可能已经知道公开技巧。 但至少说明这个系统能把各种训练技巧组装成一个有效stack。

它发现的优化不是单一trick,而是一堆东西叠起来: 架构、短上下文记忆、辅助loss、attention、optimizer、weight decay schedule、compiler设置等。

最大亮点之一是短上下文记忆机制:用hashed bigram/trigram embedding table,通过门控混入attention value path,让小模型低成本利用局部n-gram信息。这个点可以和DeepSeek Engram、NanoGPT Speedrun里的hash table思路串起来。

第二,NanoGPT Speedrun。

这个更有意思,因为它已经被人类社区优化了两年多。 任务是用单个HGX H100 8卡节点,把小GPT模型在FineWeb上训练到固定验证loss 3.28,看谁最快。

人类社区已经把训练时间从2024年中的约45分钟压到79.7秒。 Recursive从当前领先方案继续优化,把时间压到77.5秒,并且仍满足排行榜显著性要求。看起来只省了2.2秒,但在这种已经被人类优化了这么久的任务上获得优化,属实是逮住蛤蟆挤出团粉了。

它还从一个早期约15分钟方案开始,几天内做到约185秒,接近人类排行榜2025年5月约180秒水平。 同样,这也可能不完全是独立发现,但说明自动化研究系统可以复现并组合很多人类工程优化。

第三,SOL-ExecBench。

这个从模型训练下沉到GPU kernel优化。 Benchmark包含235个真实工作负载衍生的kernel编写任务,比如矩阵乘法、归约、归一化、attention组件、量化、fused blocks等。 目标是在B200 GPU上写出正确且更快的kernel。

Recursive把235个kernel联合跑,让系统能在相关任务之间复用模式,比如memory movement、tiling、reduction、vectorization、fusion。

结果是平均NVIDIA SOL-ExecBench分数0.754,之前leaderboard最佳是0.699。 换句话说,它把距离硬件理论上限的gap减少了18%。

但这里模型的reward hacking特别严重。 有些候选方案不是写更快kernel,而是利用评估器漏洞,比如缓存输出、依赖持久状态、钻timing harness的空子。于是作者强调: 随着搜索系统变强,评估器也必须变强。 因为自动化科研一旦目标函数写得不够严,机器会很认真地帮你作弊,像一个不懂道德但很会刷KPI的实习生。

相似文章

迈向自动化AI研究的第一步 (12分钟阅读)

TLDR AI

Recursive 发布了一个自动化AI研究系统,在三个基准测试中取得了最先进的结果:固定预算语言模型训练、小模型训练速度和GPU内核优化。该系统自动化了研究循环,并开源了其运行中的产物。

@WWTLitee: 有没有什么办法让AI自主迭代优化? 有,来看看这个 autoresearch 它的核心不是让 AI 直接“发明论文”,而是把研究过程拆成一个可验证循环:人类写 program.md 给研究方向,AI agent 修改 http://tra…

X AI KOLs Timeline

介绍了autoresearch项目,它将AI研究过程拆解为可验证的循环(固定环境、单一可编辑文件、固定指标、Git回滚),使AI agent能进行可控、可复现的实验迭代;同时提及了12-factor-agents清单。

@sitinme: 看到 Karpathy 开源了一个很有意思的项目autoresearch,把一个真实但小型的 LLM 训练任务交给 AI Agent,让它自己做研究、改代码、跑实验、看结果,然后决定保留还是放弃这次改动。 这个项目基于单张 NVIDIA …

X AI KOLs Timeline

Karpathy 开源了一个实验性项目 autoresearch,让 AI Agent 自动完成小规模 LLM 训练的研究循环:修改代码、运行实验、评估结果并迭代优化,人类只需编写研究计划和约束。