标签
一份关于监督微调(SFT)训练AI代理的详细教程,完全基于纯PyTorch从零构建,使用Qwen3-0.6B模型,解释了下一个词元预测和标签掩码的机制。
一场直播的回顾,其中AI代理(Codex)自主运行整个SFT工作流,训练一个小型Gemma 2B模型来模仿编码代理(pi)。所有工件和代码均已开源。