@MaxForAI: 田渊栋 @tydsh 的创业团队Recursive @Recursive_SI 发布了一个阶段性的成果:自动化AI研究系统 这个系统里AI能自己完成「提出想法→实现→跑实验→验证→根据结果选下一个实验」这一整套研究循环。 结果表明在目标清…
摘要
Recursive团队发布自动化AI研究系统,能自主完成研究循环,在多个基准上超越人类社区已有方案,如在NanoGPT Speedrun中将训练时间从79.7秒压缩至77.5秒,在SOL-ExecBench上将得分提升至0.754。
查看缓存全文
缓存时间: 2026/06/12 02:49
田渊栋 @tydsh 的创业团队Recursive @Recursive_SI 发布了一个阶段性的成果:自动化AI研究系统
这个系统里AI能自己完成「提出想法→实现→跑实验→验证→根据结果选下一个实验」这一整套研究循环。
结果表明在目标清晰、反馈快、指标可量化的AI训练和系统工程任务里,自动化研究系统已经能做出超过人类社区已有方案的增量优化。
文章里主要有三个case,都是来自AK @karpathy 之前的成果:
第一,NanoChat Autoresearch。
这是Karpathy的自动化研究测试场景:单卡、5分钟预算,把小语言模型训练到更低验证损失,指标是BPB。Recursive从同样的初始方案出发,先在H100上搜索,再迁移到B200上评估。
结果是:之前autoresearch@home社区最佳方案,去掉一些小reward hack后,10个随机种子平均是0.9372 BPB;Recursive系统找到的方案做到0.9109 BPB,提升0.0263 BPB。
更有意思的是,它从一个更弱的vanilla Transformer+AdamW起点开始,也能从1.059 BPB做到0.9344 BPB,超过社区最佳方案。 但文章里也很谨慎地说,这不代表完全“独立发现”,因为底层模型可能已经知道公开技巧。 但至少说明这个系统能把各种训练技巧组装成一个有效stack。
它发现的优化不是单一trick,而是一堆东西叠起来: 架构、短上下文记忆、辅助loss、attention、optimizer、weight decay schedule、compiler设置等。
最大亮点之一是短上下文记忆机制:用hashed bigram/trigram embedding table,通过门控混入attention value path,让小模型低成本利用局部n-gram信息。这个点可以和DeepSeek Engram、NanoGPT Speedrun里的hash table思路串起来。
第二,NanoGPT Speedrun。
这个更有意思,因为它已经被人类社区优化了两年多。 任务是用单个HGX H100 8卡节点,把小GPT模型在FineWeb上训练到固定验证loss 3.28,看谁最快。
人类社区已经把训练时间从2024年中的约45分钟压到79.7秒。 Recursive从当前领先方案继续优化,把时间压到77.5秒,并且仍满足排行榜显著性要求。看起来只省了2.2秒,但在这种已经被人类优化了这么久的任务上获得优化,属实是逮住蛤蟆挤出团粉了。
它还从一个早期约15分钟方案开始,几天内做到约185秒,接近人类排行榜2025年5月约180秒水平。 同样,这也可能不完全是独立发现,但说明自动化研究系统可以复现并组合很多人类工程优化。
第三,SOL-ExecBench。
这个从模型训练下沉到GPU kernel优化。 Benchmark包含235个真实工作负载衍生的kernel编写任务,比如矩阵乘法、归约、归一化、attention组件、量化、fused blocks等。 目标是在B200 GPU上写出正确且更快的kernel。
Recursive把235个kernel联合跑,让系统能在相关任务之间复用模式,比如memory movement、tiling、reduction、vectorization、fusion。
结果是平均NVIDIA SOL-ExecBench分数0.754,之前leaderboard最佳是0.699。 换句话说,它把距离硬件理论上限的gap减少了18%。
但这里模型的reward hacking特别严重。 有些候选方案不是写更快kernel,而是利用评估器漏洞,比如缓存输出、依赖持久状态、钻timing harness的空子。于是作者强调: 随着搜索系统变强,评估器也必须变强。 因为自动化科研一旦目标函数写得不够严,机器会很认真地帮你作弊,像一个不懂道德但很会刷KPI的实习生。
相似文章
@ChengleiSi:兴奋地分享我们在内部自动研究系统 @Recursive_SI 上取得的初步结果,我们在……上达到了SOTA
Recursive的自动AI研究系统通过在无需任务特定适配的情况下自动化研究循环,在NanoChat、NanoGPT Speedrun和GPU内核基准测试上达到了最先进的成果,并开源了相关工件以供进一步检验。
迈向自动化AI研究的第一步 (12分钟阅读)
Recursive 发布了一个自动化AI研究系统,在三个基准测试中取得了最先进的结果:固定预算语言模型训练、小模型训练速度和GPU内核优化。该系统自动化了研究循环,并开源了其运行中的产物。
@WWTLitee: 有没有什么办法让AI自主迭代优化? 有,来看看这个 autoresearch 它的核心不是让 AI 直接“发明论文”,而是把研究过程拆成一个可验证循环:人类写 program.md 给研究方向,AI agent 修改 http://tra…
介绍了autoresearch项目,它将AI研究过程拆解为可验证的循环(固定环境、单一可编辑文件、固定指标、Git回滚),使AI agent能进行可控、可复现的实验迭代;同时提及了12-factor-agents清单。
@Recursive_SI: https://x.com/Recursive_SI/status/2064980090702962699
Recursive 发布了其自动化 AI 研究系统的早期成果,在固定预算语言模型训练、小模型训练速度以及 GPU 内核优化方面达到了业界领先水平,并开源了相关制品。
@sitinme: 看到 Karpathy 开源了一个很有意思的项目autoresearch,把一个真实但小型的 LLM 训练任务交给 AI Agent,让它自己做研究、改代码、跑实验、看结果,然后决定保留还是放弃这次改动。 这个项目基于单张 NVIDIA …
Karpathy 开源了一个实验性项目 autoresearch,让 AI Agent 自动完成小规模 LLM 训练的研究循环:修改代码、运行实验、评估结果并迭代优化,人类只需编写研究计划和约束。