@yibie: 推荐这个 repo,从零构建 GPT 风格 transformer,不用任何高级库。13M 参数就能产出语法正确的文本,在免费 Colab 的 T4 上一天就能训完。 从零训练自己的 LLM:13M 参数的 GPT 实现 Akshay 分…
摘要
推荐了一个从零构建GPT风格Transformer的GitHub仓库,无需高级库,13M参数即可在免费Colab上训练一天,生成语法正确的文本。
查看缓存全文
缓存时间: 2026/06/30 07:37
推荐这个 repo,从零构建 GPT 风格 transformer,不用任何高级库。13M 参数就能产出语法正确的文本,在免费 Colab 的 T4 上一天就能训完。
从零训练自己的 LLM:13M 参数的 GPT 实现
Akshay 分享的 repo,从数据下载到生成文本的完整流程: • 使用 The Pile 数据集 (825GB) • tiktoken 分词 • 完整的训练循环(eval、LR decay、checkpoint) • 含 SFT 和 RLHF 指南
13M 参数就能产出正确语法和拼写,免费 Colab T4 一天可训完。
原文:https://x.com/akshay_pachaar/status/2066551571031458086…
#LLM #从零训练 #AI
Akshay 🚀 (@akshay_pachaar): Train your own LLM from scratch.
This repo builds a GPT-style transformer from the ground up, without using any high-level libraries.
You see exactly how attention, multi-head attention, the feed-forward block, embeddings, residuals, and layer norm fit together.
And it doesn’t
相似文章
@akshay_pachaar: 从头开始训练你自己的LLM。这个仓库从头构建了一个GPT风格的Transformer,完全不用高级库…
一个从零开始构建GPT风格Transformer的仓库,不使用高级库,涵盖了从数据预处理到生成的整个过程,并包括SFT和RLHF的指南。
@NFTCPS: 天天喊着搞AI,结果你连Transformer是个啥都说不清? 有个仓库够狠,从零手搓一个GPT,不调任何高级库。Attention、多头、前馈、Embedding、残差、Layer Norm,怎么拼起来的全摊给你看。而且不止模型,整条链…
一个GitHub开源项目,从零实现完整的GPT训练流程,包含数据预处理、预训练、SFT和RLHF后训练,全部基于原生PyTorch,适合想深入理解Transformer原理的开发者。
@Xx15573208: 看了很多 Transformer 的文章,能听懂原理,但真正坐下来写代码,完全无从下手。 LLMs-from-scratch 专门解决这个问题:配套《Build a Large Language Model》一书,带你用 PyTorch …
LLMs-from-scratch 是一个 GitHub 仓库,配套《Build a Large Language Model》一书,提供从零用 PyTorch 实现 GPT 的完整代码,涵盖预训练、微调、RLHF 等全流程,已获 93K+ stars,适合想深入理解大模型原理的开发者。
Hi Reddit, I posted my Build Your Own LLM workshop to Youtube (GPT2 & Qwen3.6 style)
Justin Angel 发布了一个完整的 YouTube 工作坊,教你从零构建自己的大语言模型(基于 GPT-2 和 Qwen3.6 风格),涵盖 Transformer 架构、训练流程,并提供 Excel 手动操作和 Python/PyTorch 代码实践,无需数学或 ML 先修知识。
@sairahul1:没人告诉你GPT或Claude内部到底是什么。他们说“transformer”然后就略过了。这个仓库从头构建了一个……
一个仓库,从头构建transformer,不用高级库,解释注意力机制和完整训练流程,在免费Colab上一天内可训练。