一场直播的回顾，其中AI代理（Codex）自主运行整个SFT工作流，训练一个小型Gemma 2B模型来模仿编码代理（pi）。所有工件和代码均已开源。

X AI KOLs 工具

training-agents sft supervised-fine-tuning coding-agent open-source gemma live-stream

摘要

一场直播的回顾，其中AI代理（Codex）自主运行整个SFT工作流，训练一个小型Gemma 2B模型来模仿编码代理（pi）。所有工件和代码均已开源。

https://t.co/TqIHNfRkfC

查看原文

查看缓存全文

缓存时间: 2026/06/23 14:35

Training Agents Class 1: SFT，由 Agent 运行

我们让一个智能体从头到尾运行整个 SFT 工作流，仅凭一个提示便实时完成。

注意： 你可以（而且应该）观看完整的直播视频，其中有更详细的讲解：https://www.youtube.com/watch?v=rNgUoH7Wbv8

我们在直播开始时只粘贴了一个提示，全程没有手写任何训练代码。此后，由 AI 智能体完成工程工作。这里“智能体“一词有几种不同含义。因此，首先让我们明确这里指的是哪一种。

哪个智能体是哪个？

这个故事中有两个不同的智能体：

构建者：执行 ML 工作的智能体。我们使用了 Codex，但任何有能力的智能体都可以胜任。我们给它一个提示，它就完成了模型解析、数据准备、训练运行、跟踪、评估，以及编写模型卡。
学生（我们训练的那个！）：一个小的开源 Gemma 模型（gemma 4 2b），它学习如何像一个编码智能体那样行动。

数据来自第三个智能体：pi，一个真正的编码智能体。它的实际工作会话（即轨迹）是学生模仿的对象。

所以，一个智能体负责构建，一个智能体正在被构建，第三个则提供了课程。

为什么这样做有意义？

为什么要训练一个模型成为编码智能体？ 当今有能力的编码智能体通常运行在庞大、昂贵且通常是闭源的模型上。训练一个小型开源模型模仿编码智能体的行为，就能得到一个廉价、私密且完全属于你自己的东西。而且，由于你在自己的轨迹上进行训练，你可以针对特定用例（你的代码库、你的工具、你的工作流）对其进行专门化。这也是你的起点。你无法改进一个尚不能像智能体一样行动的智能体，因此首先要教会它这种格式。

为什么选择 Gemma 4，而且是 2B 版本？ Gemma 4 是近期发布的、开源的、有良好支持的指令模型。2B 的规模足够小，训练速度快，可以在普通 GPU 上运行，并支持实时迭代。我们希望你能看到机制和工作流，而不是为了冲击某个基准。小模型也让局限一目了然。

你预期得到什么输出？ 一个 LoRA 适配器和最终的模型仓库，它们模仿了智能体的格式：工具调用和多轮循环。它学习的是智能体的形态和语言，而非强大的问题解决能力。一个 2B 模型在经过一次 SFT 之后，不可能成为优秀的编码器。你得到的模型能表现出智能体的行为，以及一个可重现、可审计的流水线。

在哪里可以找到所有内容？

所有工件都是开放的（当然啦！）：

完整直播：https://www.youtube.com/watch?v=rNgUoH7Wbv8
幻灯片：https://docs.google.com/presentation/d/1hcGZ4U9TjZZzcGNbH2K6wYD45qwZTyo_gosCQsnHlnc
Ben 的 SFT 从零开始：https://x.com/ben_burtenshaw/status/2067615361428545566
完整的智能体会话轨迹：https://huggingface.co/buckets/burtenshaw/sft-on-traces/tree/example.jsonl
Trackio 仪表盘：https://huggingface.co/spaces/burtenshaw/youtube-livestream-1-trackio
最终模型：https://huggingface.co/burtenshaw/gemma-4-E2B-it-pi-mono-lora-youtube-livestream-1
获胜适配器：https://huggingface.co/burtenshaw/gemma-4-E2B-it-pi-mono-lora-youtube-livestream-1-lr2e4-r16-len4k
数据集（pi-mono 轨迹）：https://huggingface.co/datasets/badlogicgames/pi-mono
代码和上下文仓库：https://github.com/burtenshaw/training-agents

工具，主要来自 Hugging Face 🤗：TRL、Hugging Face Jobs、Trackio 和 Hub，以及用于评估的 Inspect AI 和 vLLM。

构建工作由智能体完成，但判断仍由我们掌控：目标、约束、我们在任何评分之前确定的规则，以及检查每件工件的真实性。

以上是回顾。课程本身就在直播中，一切都在那里发生。这个系列将在接下来的内容中深入探讨。

一场直播的回顾，其中AI代理（Codex）自主运行整个SFT工作流，训练一个小型Gemma 2B模型来模仿编码代理（pi）。所有工件和代码均已开源。

Training Agents Class 1: SFT，由 Agent 运行

哪个智能体是哪个？

为什么这样做有意义？

在哪里可以找到所有内容？

相似文章

@SergioPaniego: 我们让一个智能体实时训练一个编码智能体，仅从一个提示开始——哪个智能体是哪个，为什么这样做有意义，以及所有产物，都在回顾中。

@RoundtableSpace: GitHub 刚刚开源了一个系统，强制 AI 代理在编码前编写完整规范，数天内获得 95K 星标

@Av1dlive: 两位OpenAI工程师刚刚举办了一场关于如何使用Codex构建和发布应用的大师课，他们花了16分钟讲解Codex如何将一…

@sharbel: 有人构建了一个免费的、生产级工程技能合集，教会你的 AI 编码代理如何像高级工程师一样精确工作……

@SergioPaniego: https://x.com/SergioPaniego/status/2066498136273531363

提交意见反馈