@rohit4verse: 每个夜晚,如果你没有运行自主研究智能体,那你就是在手动运行别人几个月前就已经自动化的实验…

X AI KOLs Timeline 工具

摘要

Andrej Karpathy 开源了一个自主研究智能体,它能在单张 GPU 上通宵运行自己的机器学习实验,通过编辑代码自动迭代改进,并保留那些能降低验证损失的变化。

每个夜晚,如果你没有运行自主研究智能体,那你就是在手动运行别人几个月前就已经自动化的实验。 大多数人还在寻找所谓的“正确”设置:框架、编排、胶水代码。 你根本不需要这些。Andrej Karpathy 开源了他自己的版本,能够自主运行机器学习研究。只需一张 GPU,一晚上就能完成约 100 次实验。你甚至不需要碰 Python 代码。 以下是具体设置(只需 2 分钟): 1. 克隆仓库:(链接在评论区) 2. uv sync,然后运行 uv run prepare[.]py 3. 运行一次 uv run train[.]py 确认基线能跑通 4. 将你的编程智能体指向 program.md,然后离开即可 智能体会编辑一个文件,训练 5 分钟,如果 val_bpb 下降则保留更改,否则恢复原状。Git 充当记忆,度量标准充当裁判。 当你醒来时,看到的是一步步经过验证的改进,而不是一堆从未测试过的想法。
查看原文
查看缓存全文

缓存时间: 2026/05/25 12:53

每个你不在运行自主研究agent的夜晚,你都在手动运行别人几个月前就已经自动化的实验。

大多数人仍在寻找“正确”的配置。框架、编排、胶水代码。

你根本不需要这些。Andrej Karpathy 开源了他自己的版本,可以自行运行机器学习研究。一张GPU。一晚上约100次实验。你完全不需要碰Python。

以下是具体设置(只需2分钟):

  1. 克隆仓库:(评论中的仓库链接)
  2. uv sync,然后 uv run prepare[.]py
  3. uv run train[.]py 一次以确认基线运行
  4. 将你的coding agent指向program.md,然后离开

agent会编辑一个文件,训练5分钟,如果val_bpb下降则保留更改,否则回退。Git是记忆,指标是裁判。

你醒来时看到的是经过验证的改进阶梯,而不是你从未测试过的想法积压。

相似文章

@sitinme: 看到 Karpathy 开源了一个很有意思的项目autoresearch,把一个真实但小型的 LLM 训练任务交给 AI Agent,让它自己做研究、改代码、跑实验、看结果,然后决定保留还是放弃这次改动。 这个项目基于单张 NVIDIA …

X AI KOLs Timeline

Karpathy 开源了一个实验性项目 autoresearch,让 AI Agent 自动完成小规模 LLM 训练的研究循环:修改代码、运行实验、评估结果并迭代优化,人类只需编写研究计划和约束。