一场直播的回顾,其中AI代理(Codex)自主运行整个SFT工作流,训练一个小型Gemma 2B模型来模仿编码代理(pi)。所有工件和代码均已开源。

X AI KOLs 工具

摘要

一场直播的回顾,其中AI代理(Codex)自主运行整个SFT工作流,训练一个小型Gemma 2B模型来模仿编码代理(pi)。所有工件和代码均已开源。

https://t.co/TqIHNfRkfC
查看原文
查看缓存全文

缓存时间: 2026/06/23 14:35

Training Agents Class 1: SFT,由 Agent 运行

我们让一个智能体从头到尾运行整个 SFT 工作流,仅凭一个提示便实时完成。

注意: 你可以(而且应该)观看完整的直播视频,其中有更详细的讲解:https://www.youtube.com/watch?v=rNgUoH7Wbv8

我们在直播开始时只粘贴了一个提示,全程没有手写任何训练代码。此后,由 AI 智能体完成工程工作。这里“智能体“一词有几种不同含义。因此,首先让我们明确这里指的是哪一种。

哪个智能体是哪个?

这个故事中有两个不同的智能体:

  • 构建者:执行 ML 工作的智能体。我们使用了 Codex,但任何有能力的智能体都可以胜任。我们给它一个提示,它就完成了模型解析、数据准备、训练运行、跟踪、评估,以及编写模型卡。

  • 学生我们训练的那个!):一个小的开源 Gemma 模型(gemma 4 2b),它学习如何像一个编码智能体那样行动。

数据来自第三个智能体:pi,一个真正的编码智能体。它的实际工作会话(即轨迹)是学生模仿的对象。

所以,一个智能体负责构建,一个智能体正在被构建,第三个则提供了课程。

为什么这样做有意义?

为什么要训练一个模型成为编码智能体? 当今有能力的编码智能体通常运行在庞大、昂贵且通常是闭源的模型上。训练一个小型开源模型模仿编码智能体的行为,就能得到一个廉价、私密且完全属于你自己的东西。而且,由于你在自己的轨迹上进行训练,你可以针对特定用例(你的代码库、你的工具、你的工作流)对其进行专门化。这也是你的起点。你无法改进一个尚不能像智能体一样行动的智能体,因此首先要教会它这种格式。

为什么选择 Gemma 4,而且是 2B 版本? Gemma 4 是近期发布的、开源的、有良好支持的指令模型。2B 的规模足够小,训练速度快,可以在普通 GPU 上运行,并支持实时迭代。我们希望你能看到机制和工作流,而不是为了冲击某个基准。小模型也让局限一目了然。

你预期得到什么输出? 一个 LoRA 适配器和最终的模型仓库,它们模仿了智能体的格式:工具调用和多轮循环。它学习的是智能体的形态和语言,而非强大的问题解决能力。一个 2B 模型在经过一次 SFT 之后,不可能成为优秀的编码器。你得到的模型能表现出智能体的行为,以及一个可重现、可审计的流水线。

在哪里可以找到所有内容?

所有工件都是开放的(当然啦!):

  • 完整直播:https://www.youtube.com/watch?v=rNgUoH7Wbv8

  • 幻灯片:https://docs.google.com/presentation/d/1hcGZ4U9TjZZzcGNbH2K6wYD45qwZTyo_gosCQsnHlnc

  • Ben 的 SFT 从零开始:https://x.com/ben_burtenshaw/status/2067615361428545566

  • 完整的智能体会话轨迹:https://huggingface.co/buckets/burtenshaw/sft-on-traces/tree/example.jsonl

  • Trackio 仪表盘:https://huggingface.co/spaces/burtenshaw/youtube-livestream-1-trackio

  • 最终模型:https://huggingface.co/burtenshaw/gemma-4-E2B-it-pi-mono-lora-youtube-livestream-1

  • 获胜适配器:https://huggingface.co/burtenshaw/gemma-4-E2B-it-pi-mono-lora-youtube-livestream-1-lr2e4-r16-len4k

  • 数据集(pi-mono 轨迹):https://huggingface.co/datasets/badlogicgames/pi-mono

  • 代码和上下文仓库:https://github.com/burtenshaw/training-agents

工具,主要来自 Hugging Face 🤗:TRL、Hugging Face Jobs、Trackio 和 Hub,以及用于评估的 Inspect AI 和 vLLM。

构建工作由智能体完成,但判断仍由我们掌控:目标、约束、我们在任何评分之前确定的规则,以及检查每件工件的真实性。

以上是回顾。课程本身就在直播中,一切都在那里发生。这个系列将在接下来的内容中深入探讨。

相似文章