一场直播的回顾,其中AI代理(Codex)自主运行整个SFT工作流,训练一个小型Gemma 2B模型来模仿编码代理(pi)。所有工件和代码均已开源。
摘要
一场直播的回顾,其中AI代理(Codex)自主运行整个SFT工作流,训练一个小型Gemma 2B模型来模仿编码代理(pi)。所有工件和代码均已开源。
查看缓存全文
缓存时间: 2026/06/23 14:35
Training Agents Class 1: SFT,由 Agent 运行
我们让一个智能体从头到尾运行整个 SFT 工作流,仅凭一个提示便实时完成。
注意: 你可以(而且应该)观看完整的直播视频,其中有更详细的讲解:https://www.youtube.com/watch?v=rNgUoH7Wbv8
我们在直播开始时只粘贴了一个提示,全程没有手写任何训练代码。此后,由 AI 智能体完成工程工作。这里“智能体“一词有几种不同含义。因此,首先让我们明确这里指的是哪一种。
哪个智能体是哪个?
这个故事中有两个不同的智能体:
-
构建者:执行 ML 工作的智能体。我们使用了 Codex,但任何有能力的智能体都可以胜任。我们给它一个提示,它就完成了模型解析、数据准备、训练运行、跟踪、评估,以及编写模型卡。
-
学生(我们训练的那个!):一个小的开源 Gemma 模型(gemma 4 2b),它学习如何像一个编码智能体那样行动。
数据来自第三个智能体:pi,一个真正的编码智能体。它的实际工作会话(即轨迹)是学生模仿的对象。
所以,一个智能体负责构建,一个智能体正在被构建,第三个则提供了课程。
为什么这样做有意义?
为什么要训练一个模型成为编码智能体? 当今有能力的编码智能体通常运行在庞大、昂贵且通常是闭源的模型上。训练一个小型开源模型模仿编码智能体的行为,就能得到一个廉价、私密且完全属于你自己的东西。而且,由于你在自己的轨迹上进行训练,你可以针对特定用例(你的代码库、你的工具、你的工作流)对其进行专门化。这也是你的起点。你无法改进一个尚不能像智能体一样行动的智能体,因此首先要教会它这种格式。
为什么选择 Gemma 4,而且是 2B 版本? Gemma 4 是近期发布的、开源的、有良好支持的指令模型。2B 的规模足够小,训练速度快,可以在普通 GPU 上运行,并支持实时迭代。我们希望你能看到机制和工作流,而不是为了冲击某个基准。小模型也让局限一目了然。
你预期得到什么输出? 一个 LoRA 适配器和最终的模型仓库,它们模仿了智能体的格式:工具调用和多轮循环。它学习的是智能体的形态和语言,而非强大的问题解决能力。一个 2B 模型在经过一次 SFT 之后,不可能成为优秀的编码器。你得到的模型能表现出智能体的行为,以及一个可重现、可审计的流水线。
在哪里可以找到所有内容?
所有工件都是开放的(当然啦!):
-
完整直播:https://www.youtube.com/watch?v=rNgUoH7Wbv8
-
幻灯片:https://docs.google.com/presentation/d/1hcGZ4U9TjZZzcGNbH2K6wYD45qwZTyo_gosCQsnHlnc
-
Ben 的 SFT 从零开始:https://x.com/ben_burtenshaw/status/2067615361428545566
-
完整的智能体会话轨迹:https://huggingface.co/buckets/burtenshaw/sft-on-traces/tree/example.jsonl
-
Trackio 仪表盘:https://huggingface.co/spaces/burtenshaw/youtube-livestream-1-trackio
-
最终模型:https://huggingface.co/burtenshaw/gemma-4-E2B-it-pi-mono-lora-youtube-livestream-1
-
获胜适配器:https://huggingface.co/burtenshaw/gemma-4-E2B-it-pi-mono-lora-youtube-livestream-1-lr2e4-r16-len4k
-
数据集(pi-mono 轨迹):https://huggingface.co/datasets/badlogicgames/pi-mono
-
代码和上下文仓库:https://github.com/burtenshaw/training-agents
工具,主要来自 Hugging Face 🤗:TRL、Hugging Face Jobs、Trackio 和 Hub,以及用于评估的 Inspect AI 和 vLLM。
构建工作由智能体完成,但判断仍由我们掌控:目标、约束、我们在任何评分之前确定的规则,以及检查每件工件的真实性。
以上是回顾。课程本身就在直播中,一切都在那里发生。这个系列将在接下来的内容中深入探讨。
相似文章
@SergioPaniego: 我们让一个智能体实时训练一个编码智能体,仅从一个提示开始——哪个智能体是哪个,为什么这样做有意义,以及所有产物,都在回顾中。
一个AI智能体从一个提示训练编码智能体的实时演示,并回顾了所有产物。
@RoundtableSpace: GitHub 刚刚开源了一个系统,强制 AI 代理在编码前编写完整规范,数天内获得 95K 星标
GitHub 开源了一个系统,强制 AI 代理在编码前编写完整规范,迅速获得 9.5万星标。
@Av1dlive: 两位OpenAI工程师刚刚举办了一场关于如何使用Codex构建和发布应用的大师课,他们花了16分钟讲解Codex如何将一…
OpenAI工程师展示了Codex作为软件工程的代理工具,能够审查代码、将工作分配给多个子代理,并自主运行工作流程,有效将一人变成完整的工程团队。
@sharbel: 有人构建了一个免费的、生产级工程技能合集,教会你的 AI 编码代理如何像高级工程师一样精确工作……
Agent Skills 是一个免费的开源合集,包含生产级工程技能,教会 AI 编码代理遵循高级工程师的工作流程,包括规范优先、原子化构建和质量门,兼容 Claude Code、Codex、Cursor 和 Gemini CLI。
@SergioPaniego: https://x.com/SergioPaniego/status/2066498136273531363
这篇帖子演示了如何通过单个提示词免费微调模型,利用了新的Google Colab CLI以及Hugging Face的TRL和trackio工具,所有这些都由AI代理编排。