@sairahul1:没人告诉你GPT或Claude内部到底是什么。他们说“transformer”然后就略过了。这个仓库从头构建了一个……
摘要
一个仓库,从头构建transformer,不用高级库,解释注意力机制和完整训练流程,在免费Colab上一天内可训练。
查看缓存全文
缓存时间: 2026/06/16 13:39
没有人真正告诉你GPT或Claude的内部是怎么工作的。
他们只说一句“transformer”就带过了。
这个项目从零构建了一个——没有高级库,没有抽象封装,没有捷径。
你可以清清楚楚看到注意力机制如何运作。 多头注意力如何工作。 嵌入层、残差连接、层归一化如何拼装在一起。
然后它走完了完整流程:
原始数据 → 预处理 → 分词 → 训练循环 → 生成文本。
当参数量达到1300万时,输出就开始产生正确的语法和拼写。
你可以在免费的Colab上花一天时间训练它。
收藏这个项目,自己动手构建一个 ↓
相似文章
@akshay_pachaar: 从头开始训练你自己的LLM。这个仓库从头构建了一个GPT风格的Transformer,完全不用高级库…
一个从零开始构建GPT风格Transformer的仓库,不使用高级库,涵盖了从数据预处理到生成的整个过程,并包括SFT和RLHF的指南。
@NFTCPS: 天天喊着搞AI,结果你连Transformer是个啥都说不清? 有个仓库够狠,从零手搓一个GPT,不调任何高级库。Attention、多头、前馈、Embedding、残差、Layer Norm,怎么拼起来的全摊给你看。而且不止模型,整条链…
一个GitHub开源项目,从零实现完整的GPT训练流程,包含数据预处理、预训练、SFT和RLHF后训练,全部基于原生PyTorch,适合想深入理解Transformer原理的开发者。
@Fluyeporlaweb:这位天才在 GitHub 上发布了一份逐步指南,教你从零开始构建和训练自己的模型。没有魔法……
Fluyeporlaweb 在 GitHub 上发布了一份指南,展示如何从零开始构建和训练 Transformer 模型,实现了注意力机制、多头注意力、嵌入以及训练后算法(SFT、PPO、DPO、GRPO),无需使用高级库,并在 The Pile 数据集上训练。
@AlphaSignalAI: 这个免费的交互式解释器刚刚揭示了GPT实际上是如何工作的。大多数人把Transformer当作魔法。你输入…
一个名为Transformer Explainer的免费交互式工具,在浏览器中运行实时GPT-2模型,通过桑基图和实时推理可视化Transformer的内部工作原理。
@shabnam_774: https://x.com/shabnam_774/status/2058517919760355729
本文提供了关于现代大型语言模型(如ChatGPT和Claude)从零开始构建的全面逐步解析,涵盖了数据收集、分词、Transformer架构、训练、对齐和部署。