@Fluyeporlaweb:这位天才在 GitHub 上发布了一份逐步指南,教你从零开始构建和训练自己的模型。没有魔法……
摘要
Fluyeporlaweb 在 GitHub 上发布了一份指南,展示如何从零开始构建和训练 Transformer 模型,实现了注意力机制、多头注意力、嵌入以及训练后算法(SFT、PPO、DPO、GRPO),无需使用高级库,并在 The Pile 数据集上训练。
查看缓存全文
缓存时间: 2026/06/15 15:05
这位天才在 GitHub 上发布了一份手把手教程,教你从零开始构建并训练自己的模型。
无需魔法。
没有任何隐藏过程的库。
不需要付费使用数据中心。
5.7k 星标。760 次 Fork。MIT 协议。
- 完整实现 Transformer(遵循《Attention Is All You Need》论文)——注意力机制、多头、嵌入,全部手写
- 使用 tiktoken 对 825GB 的 The Pile 数据集进行分词
- 参数规模从 13M 到超过 2B,可在单张 GPU 上训练
- 利用免费的 Colab T4,你就能拥有自己训练好的模型
- 硬件速查表:每种参数规模需要多少 GPU
- 从零开始的训练后流程:SFT、奖励模型、PPO、DPO 和 GRPO
- 无需 trl、无需 peft、无需 transformers——每个算法都是手写
- 真实数据集:Alpaca、Dolly、Anthropic HH-RLHF、UltraFeedback、GSM8K
- 支持多 GPU(DDP)和 bf16
在免费的 T4 上训练的 13M 参数模型,能生成语法结构完美但毫无意义的句子。
而这正是教训所在。
你亲眼看到了免费与真正需要资源之间的那条清晰界线。
the link
相似文章
@akshay_pachaar: 从头开始训练你自己的LLM。这个仓库从头构建了一个GPT风格的Transformer,完全不用高级库…
一个从零开始构建GPT风格Transformer的仓库,不使用高级库,涵盖了从数据预处理到生成的整个过程,并包括SFT和RLHF的指南。
@Xx15573208: 看了很多 Transformer 的文章,能听懂原理,但真正坐下来写代码,完全无从下手。 LLMs-from-scratch 专门解决这个问题:配套《Build a Large Language Model》一书,带你用 PyTorch …
LLMs-from-scratch 是一个 GitHub 仓库,配套《Build a Large Language Model》一书,提供从零用 PyTorch 实现 GPT 的完整代码,涵盖预训练、微调、RLHF 等全流程,已获 93K+ stars,适合想深入理解大模型原理的开发者。
@shabnam_774: https://x.com/shabnam_774/status/2058517919760355729
本文提供了关于现代大型语言模型(如ChatGPT和Claude)从零开始构建的全面逐步解析,涵盖了数据收集、分词、Transformer架构、训练、对齐和部署。
@_rohit_tiwari_:用PyTorch从头构建类似GPT的LLM > 将LLM架构拆分为简单部分 > 对初学者友好 > Fu…
一个对初学者友好的动手GitHub仓库,将类似GPT的LLM架构拆分为简单部分,包含10个Jupyter笔记本,涵盖分词、注意力机制、Transformer块以及用PyTorch实现的微型GPT。
Hi Reddit, I posted my Build Your Own LLM workshop to Youtube (GPT2 & Qwen3.6 style)
Justin Angel 发布了一个完整的 YouTube 工作坊,教你从零构建自己的大语言模型(基于 GPT-2 和 Qwen3.6 风格),涵盖 Transformer 架构、训练流程,并提供 Excel 手动操作和 Python/PyTorch 代码实践,无需数学或 ML 先修知识。