@Fluyeporlaweb:这位天才在 GitHub 上发布了一份逐步指南,教你从零开始构建和训练自己的模型。没有魔法……

X AI KOLs Timeline 工具

摘要

Fluyeporlaweb 在 GitHub 上发布了一份指南,展示如何从零开始构建和训练 Transformer 模型,实现了注意力机制、多头注意力、嵌入以及训练后算法(SFT、PPO、DPO、GRPO),无需使用高级库,并在 The Pile 数据集上训练。

这位天才在 GitHub 上发布了一份逐步指南,教你从零开始构建和训练自己的模型。 没有魔法。 没有隐藏过程的库。 不需要付费使用数据中心。 5.7k 星标。760 分支。MIT 许可证。 完全按照《Attention Is All You Need》实现 Transformer——注意力机制、多头注意力、嵌入,全部手工实现 使用 tiktoken 对 825GB 的 The Pile 进行分词 在单个 GPU 上从 13M 参数训练到超过 2B 参数 使用免费的 Colab T4,你就能拥有自己训练好的模型 硬件表格:每种规模需要多少 GPU 显存 从零开始的训练后套件:SFT、奖励模型、PPO、DPO 和 GRPO 无需 trl、peft、transformers——每个算法都手工编写 真实数据集:Alpaca、Dolly、Anthropic HH-RLHF、UltraFeedback、GSM8K 使用 DDP 和 bf16 的多 GPU 支持 在免费的 T4 上训练的 13M 参数模型,生成的句子语法结构完美,但毫无意义。 这就是教训。 你亲眼看到了免费与需要真正资源之间的分界线。 链接
查看原文
查看缓存全文

缓存时间: 2026/06/15 15:05

这位天才在 GitHub 上发布了一份手把手教程,教你从零开始构建并训练自己的模型。

无需魔法。
没有任何隐藏过程的库。
不需要付费使用数据中心。

5.7k 星标。760 次 Fork。MIT 协议。

  • 完整实现 Transformer(遵循《Attention Is All You Need》论文)——注意力机制、多头、嵌入,全部手写
  • 使用 tiktoken 对 825GB 的 The Pile 数据集进行分词
  • 参数规模从 13M 到超过 2B,可在单张 GPU 上训练
  • 利用免费的 Colab T4,你就能拥有自己训练好的模型
  • 硬件速查表:每种参数规模需要多少 GPU
  • 从零开始的训练后流程:SFT、奖励模型、PPO、DPO 和 GRPO
  • 无需 trl、无需 peft、无需 transformers——每个算法都是手写
  • 真实数据集:Alpaca、Dolly、Anthropic HH-RLHF、UltraFeedback、GSM8K
  • 支持多 GPU(DDP)和 bf16

在免费的 T4 上训练的 13M 参数模型,能生成语法结构完美但毫无意义的句子。

而这正是教训所在。

你亲眼看到了免费与真正需要资源之间的那条清晰界线。

the link

相似文章

@Xx15573208: 看了很多 Transformer 的文章,能听懂原理,但真正坐下来写代码,完全无从下手。 LLMs-from-scratch 专门解决这个问题:配套《Build a Large Language Model》一书,带你用 PyTorch …

X AI KOLs Timeline

LLMs-from-scratch 是一个 GitHub 仓库,配套《Build a Large Language Model》一书,提供从零用 PyTorch 实现 GPT 的完整代码,涵盖预训练、微调、RLHF 等全流程,已获 93K+ stars,适合想深入理解大模型原理的开发者。