@Fluyeporlaweb：这位天才在 GitHub 上发布了一份逐步指南，教你从零开始构建和训练自己的模型。没有魔法……

X AI KOLs Timeline 2026/06/15 06:01 工具

transformer training-from-scratch github open-source deep-learning nlp attention

摘要

Fluyeporlaweb 在 GitHub 上发布了一份指南，展示如何从零开始构建和训练 Transformer 模型，实现了注意力机制、多头注意力、嵌入以及训练后算法（SFT、PPO、DPO、GRPO），无需使用高级库，并在 The Pile 数据集上训练。

这位天才在 GitHub 上发布了一份逐步指南，教你从零开始构建和训练自己的模型。没有魔法。没有隐藏过程的库。不需要付费使用数据中心。 5.7k 星标。760 分支。MIT 许可证。完全按照《Attention Is All You Need》实现 Transformer——注意力机制、多头注意力、嵌入，全部手工实现使用 tiktoken 对 825GB 的 The Pile 进行分词在单个 GPU 上从 13M 参数训练到超过 2B 参数使用免费的 Colab T4，你就能拥有自己训练好的模型硬件表格：每种规模需要多少 GPU 显存从零开始的训练后套件：SFT、奖励模型、PPO、DPO 和 GRPO 无需 trl、peft、transformers——每个算法都手工编写真实数据集：Alpaca、Dolly、Anthropic HH-RLHF、UltraFeedback、GSM8K 使用 DDP 和 bf16 的多 GPU 支持在免费的 T4 上训练的 13M 参数模型，生成的句子语法结构完美，但毫无意义。这就是教训。你亲眼看到了免费与需要真正资源之间的分界线。链接

查看原文

查看缓存全文

缓存时间: 2026/06/15 15:05

这位天才在 GitHub 上发布了一份手把手教程，教你从零开始构建并训练自己的模型。

无需魔法。
没有任何隐藏过程的库。
不需要付费使用数据中心。

5.7k 星标。760 次 Fork。MIT 协议。

完整实现 Transformer（遵循《Attention Is All You Need》论文）——注意力机制、多头、嵌入，全部手写
使用 tiktoken 对 825GB 的 The Pile 数据集进行分词
参数规模从 13M 到超过 2B，可在单张 GPU 上训练
利用免费的 Colab T4，你就能拥有自己训练好的模型
硬件速查表：每种参数规模需要多少 GPU
从零开始的训练后流程：SFT、奖励模型、PPO、DPO 和 GRPO
无需 trl、无需 peft、无需 transformers——每个算法都是手写
真实数据集：Alpaca、Dolly、Anthropic HH-RLHF、UltraFeedback、GSM8K
支持多 GPU（DDP）和 bf16

在免费的 T4 上训练的 13M 参数模型，能生成语法结构完美但毫无意义的句子。

而这正是教训所在。

你亲眼看到了免费与真正需要资源之间的那条清晰界线。

the link

相似文章

@sairahul1：没人告诉你GPT或Claude内部到底是什么。他们说“transformer”然后就略过了。这个仓库从头构建了一个……

X AI KOLs Timeline

一个仓库，从头构建transformer，不用高级库，解释注意力机制和完整训练流程，在免费Colab上一天内可训练。

@akshay_pachaar: 从头开始训练你自己的LLM。这个仓库从头构建了一个GPT风格的Transformer，完全不用高级库…

X AI KOLs Following

一个从零开始构建GPT风格Transformer的仓库，不使用高级库，涵盖了从数据预处理到生成的整个过程，并包括SFT和RLHF的指南。

@NFTCPS: 天天喊着搞AI，结果你连Transformer是个啥都说不清？有个仓库够狠，从零手搓一个GPT，不调任何高级库。Attention、多头、前馈、Embedding、残差、Layer Norm，怎么拼起来的全摊给你看。而且不止模型，整条链…

X AI KOLs Timeline

一个GitHub开源项目，从零实现完整的GPT训练流程，包含数据预处理、预训练、SFT和RLHF后训练，全部基于原生PyTorch，适合想深入理解Transformer原理的开发者。

@Xx15573208: 看了很多 Transformer 的文章，能听懂原理，但真正坐下来写代码，完全无从下手。 LLMs-from-scratch 专门解决这个问题：配套《Build a Large Language Model》一书，带你用 PyTorch …

X AI KOLs Timeline

LLMs-from-scratch 是一个 GitHub 仓库，配套《Build a Large Language Model》一书，提供从零用 PyTorch 实现 GPT 的完整代码，涵盖预训练、微调、RLHF 等全流程，已获 93K+ stars，适合想深入理解大模型原理的开发者。

@shabnam_774: https://x.com/shabnam_774/status/2058517919760355729

X AI KOLs Timeline

本文提供了关于现代大型语言模型（如ChatGPT和Claude）从零开始构建的全面逐步解析，涵盖了数据收集、分词、Transformer架构、训练、对齐和部署。

相似文章

@sairahul1：没人告诉你GPT或Claude内部到底是什么。他们说“transformer”然后就略过了。这个仓库从头构建了一个……

@akshay_pachaar: 从头开始训练你自己的LLM。这个仓库从头构建了一个GPT风格的Transformer，完全不用高级库…

@NFTCPS: 天天喊着搞AI，结果你连Transformer是个啥都说不清？ 有个仓库够狠，从零手搓一个GPT，不调任何高级库。Attention、多头、前馈、Embedding、残差、Layer Norm，怎么拼起来的全摊给你看。而且不止模型，整条链…

@Xx15573208: 看了很多 Transformer 的文章，能听懂原理，但真正坐下来写代码，完全无从下手。 LLMs-from-scratch 专门解决这个问题：配套《Build a Large Language Model》一书，带你用 PyTorch …

@shabnam_774: https://x.com/shabnam_774/status/2058517919760355729

提交意见反馈

@NFTCPS: 天天喊着搞AI，结果你连Transformer是个啥都说不清？有个仓库够狠，从零手搓一个GPT，不调任何高级库。Attention、多头、前馈、Embedding、残差、Layer Norm，怎么拼起来的全摊给你看。而且不止模型，整条链…