@shabnam_774: https://x.com/shabnam_774/status/2058517919760355729

X AI KOLs Timeline 2026/05/24 11:58 新闻

llm-architecture transformers tokenization data-engineering distributed-training alignment rlhf

摘要

本文提供了关于现代大型语言模型（如ChatGPT和Claude）从零开始构建的全面逐步解析，涵盖了数据收集、分词、Transformer架构、训练、对齐和部署。

https://t.co/tmwGONbU2X

查看原文

查看缓存全文

缓存时间: 2026/05/24 14:32

如何从零构建 LLM 架构

深入剖析 OpenAI ChatGPT 和 Anthropic Claude 等模型背后的系统

大多数人每天都在使用 AI 模型。

但很少有人真正理解它们是如何构建的。

在底层，大语言模型（LLM）并非魔法。它们是在海量文本上训练出来的庞大预测系统，依赖精心设计的神经网络架构。

然而，从零构建一个 LLM 远比“训练一个聊天机器人”复杂得多。

它涉及：

数据工程
分词
Transformer 架构
分布式训练
GPU 优化
强化学习
推理系统
对齐层
内存优化

本文将以实用且易于理解的方式，逐步拆解现代 LLM 的完整架构。

1. 什么是 LLM？

大语言模型是一种被训练来预测序列中下一个 token 的神经网络。

示例：

输入：

“The future of AI is”

模型预测：

“transformative”

然后继续逐个 token 预测。

这正是以下系统的基础：

OpenAI GPT 模型
Anthropic Claude
Google Gemini
Meta Llama

在规模效应下，这个简单的预测过程变得极其强大。

2. 构建 LLM 的核心流程

完整流程如下：

原始互联网数据 ↓ 清洗 + 过滤 ↓ 分词 ↓ Transformer 架构 ↓ 预训练 ↓ 微调 ↓ RLHF / 对齐 ↓ 推理优化 ↓ 部署

每个阶段都至关重要。

质量低下的数据集或糟糕的架构设计会毁掉整个模型。

3. 第一步：数据收集

LLM 需要海量数据集。

现代前沿模型训练时会使用：

书籍
维基百科
研究论文
网站
代码库
文档
对话
论坛

数据来源可能包括：

Common Crawl
GitHub
ArXiv
Stack Overflow
公开数据集

目标是多样性 + 规模。

一个训练在优质数据上的小模型，往往胜过训练在噪声数据上的大模型。

4. 数据清洗与过滤

原始互联网数据杂乱无章。

你必须移除：

垃圾信息
重复内容
低质量文本
有害内容
格式错误
重复序列
AI 生成的劣质内容

这一阶段被严重低估。

公司在数据质量上投入巨大资源，因为：

更好的数据 > 更大的模型

常见的过滤方法包括：

去重
启发式过滤
质量评分
语言检测
安全过滤
NSFW 移除

5. 分词：将文本转换为数字

神经网络不理解文字。

它们理解数字。

因此文本变成 token。

示例：

“ChatGPT is powerful” ↓ [1532, 4021, 318, 7821]

这个过程称为分词。

流行的分词方法：

BPE（字节对编码）
SentencePiece
WordPiece

Token 可以表示：

单词
子词
字符
标点

高效的分词会显著影响性能和成本。

6. 嵌入：赋予 token 含义

Token 被转换为向量。

向量本质上是一串代表语义含义的数字。

示例：

King → [0.2, -0.8, 1.4, …] Queen → [0.3, -0.7, 1.5, …]

相似的概念在向量空间中彼此靠近。

这就是模型学习单词之间关系的方式。

嵌入是语义理解的基础。

7. Transformer 架构

这改变了一切。

Transformer 架构在里程碑式的论文中提出：

“Attention Is All You Need”，由 Google Brain 研究人员于 2017 年发表。

Transformer 取代了旧系统，例如：

RNN
LSTM

因为它具有显著更好的扩展性。

如今几乎所有现代 LLM 都采用 Transformer 架构。

8. 自注意力：LLM 的核心

自注意力让模型能够确定：

在上下文中哪些单词最重要。

示例：

“The animal didn’t cross the street because it was tired.”

模型学习到：

“it” 指的是 “animal”

而不是 “street”。

自注意力动态地衡量 token 之间的关系。

这实现了上下文理解。

9. 理解 Q、K、V（查询、键、值）

注意力机制使用：

Query 向量
Key 向量
Value 向量

可以将其视为搜索。

每个 token 会问：

“哪些其他 token 与我相关？”

然后注意力分数决定重要性。

公式：

Attention(Q,K,V) = softmax(QKT / √dk)V

这是现代 AI 中最重要的公式之一。

10. 多头注意力

LLM 不使用单一的注意力机制：

而是同时使用多个注意力头。

每个头学习不同的关系：

语法
逻辑
句法
上下文
长期依赖

这极大地提升了表示学习能力。

11. 位置编码

Transformer 并行处理 token。

但语言是有顺序的。

因此模型需要位置信息。

示例：

狗咬人人咬狗

相同的单词，完全不同的含义。

位置编码帮助模型理解序列结构。

12. 前馈网络

在注意力层之后，token 通过前馈神经网络。

这些层：

精炼表示
增加非线性
提升推理能力

一个 Transformer 块通常包含：

注意力 ↓ 归一化 ↓ 前馈网络 ↓ 归一化

重复数十次或数百次。

13. 缩放法则

AI 领域的一个重大发现：

在更多数据上训练的更大模型通常表现更好。

缩放涉及：

更多参数
更多 token
更多算力

示例：

GPT-2 → 15 亿参数
GPT-3 → 1750 亿参数

现代前沿系统可能使用万亿级参数（有时通过混合专家模型实现）。

14. 训练模型

训练意味着调整权重以最小化预测误差。

过程：

输入句子 ↓ 预测下一个 token ↓ 比较预测值与实际 token ↓ 计算损失 ↓ 反向传播 ↓ 更新权重

这个过程重复数十亿次。

训练大模型可能需要：

数千块 GPU
数周或数月
庞大的分布式系统

15. GPU 与分布式训练

LLM 是计算巨兽。

训练需要集群 GPU，例如：

NVIDIA H100
A100

训练方法包括：

数据并行
张量并行
流水线并行

常用框架：

PyTorch
DeepSpeed
Megatron-LM
JAX

基础架构变得与模型设计同等重要。

16. 损失函数与优化

模型使用优化算法进行学习，例如：

AdamW
SGD 变体

目标：

最小化预测损失。

语言建模通常使用交叉熵损失。

损失越小 = 预测越好。

17. 微调

预训练之后，模型被专用于特定任务。

示例：

编程助手
医学模型
法律 AI
客服机器人

微调使用较小的精选数据集。

这使得基础模型适配特定任务。

18. RLHF：基于人类反馈的强化学习

这正是 ChatGPT 类系统具备对话能力的关键。

人类对输出进行排名。

模型学习偏好。

流程：

基础模型 ↓ 监督微调 ↓ 奖励模型 ↓ 强化学习

RLHF 帮助模型变得：

有帮助
无害
诚实

19. 上下文窗口与记忆

上下文窗口 = 模型在推理时能够“记住”的文本量。

示例：

4K token
32K token
128K+ token

更长的上下文需要高级优化，因为注意力成本会快速增长。

新技术包括：

Flash Attention
滑动窗口注意力
检索增强

20. 推理优化

训练成本高昂。

推理必须快速。

优化技术包括：

量化
KV 缓存
推测解码
TensorRT
蒸馏

目标：

降低延迟 + 降低成本。

21. 检索增强生成（RAG）

LLM 并非真正“知道”一切。

因此现代系统会动态检索外部知识。

流程：

用户查询 ↓ 搜索数据库 ↓ 检索相关片段 ↓ 注入提示词 ↓ 生成回复

这提升了：

准确性
时效性
企业应用能力

22. 混合专家模型（MoE）

现代前沿模型越来越多地采用 MoE 架构。

并非激活整个模型：

每个 token 只激活选定的专家网络。

优势：

有效参数量更大
计算成本更低
更好的扩展效率

这被认为在许多现代系统中非常重要。

23. AI 对齐与安全

原始模型可能产生有害输出。

对齐层有助于强制执行：

安全性
策略合规
真实性
行为约束

技术包括：

宪法式 AI
RLHF
Red teaming
对抗性测试

对齐已成为 AI 领域最难的问题之一。

24. 真正的挑战不在于架构

大多数人认为最困难的部分是构建 Transformer。

事实并非如此。

最困难的部分是：

数据质量
基础设施
扩展性
优化
对齐
推理经济性

Transformer 论文仅仅是个开始。

真正的工程挑战是让这些系统可扩展且可用。

25. 最后思考

LLM 是现代历史上最重要的技术突破之一。

但它们不是魔法。

它们是以下因素的结晶：

数学
分布式系统
海量数据集
优化工程
人类反馈循环

而且我们仍然处于极早期。

AI 的未来十年很可能将由以下方面定义：

更好的推理能力
自主智能体
多模态系统
高效架构
实时个性化

理解 LLM 的构建方式对于工程师来说已不再是可选项。

它正在成为技术领域的基石知识。

相似文章

@shabnam_774: 今晚别刷 Netflix 了，来看看这场斯坦福讲座。它详细解释了 ChatGPT 和 Claude 到底是怎么造出来的……

X AI KOLs Timeline

推特上分享了一场斯坦福讲座，免费讲解 ChatGPT 和 Claude 的构建原理。

@0xCodez: https://x.com/0xCodez/status/2058911661973454915

X AI KOLs Timeline

一份详细指南，解释构建大型语言模型的五个阶段流程，强调数据质量和工程实践比架构更为重要。

@Xx15573208: 看了很多 Transformer 的文章，能听懂原理，但真正坐下来写代码，完全无从下手。 LLMs-from-scratch 专门解决这个问题：配套《Build a Large Language Model》一书，带你用 PyTorch …

X AI KOLs Timeline

LLMs-from-scratch 是一个 GitHub 仓库，配套《Build a Large Language Model》一书，提供从零用 PyTorch 实现 GPT 的完整代码，涵盖预训练、微调、RLHF 等全流程，已获 93K+ stars，适合想深入理解大模型原理的开发者。

@sairahul1：没人告诉你GPT或Claude内部到底是什么。他们说“transformer”然后就略过了。这个仓库从头构建了一个……

X AI KOLs Timeline

一个仓库，从头构建transformer，不用高级库，解释注意力机制和完整训练流程，在免费Colab上一天内可训练。

ChatGPT 设置指南

YouTube AI Channels

来自 OpenAI 的教程视频，演示如何设置 ChatGPT。

如何从零构建 LLM 架构

1. 什么是 LLM？

2. 构建 LLM 的核心流程

3. 第一步：数据收集

4. 数据清洗与过滤

5. 分词：将文本转换为数字

6. 嵌入：赋予 token 含义

7. Transformer 架构

8. 自注意力：LLM 的核心

9. 理解 Q、K、V（查询、键、值）

10. 多头注意力

11. 位置编码

12. 前馈网络

13. 缩放法则

14. 训练模型

15. GPU 与分布式训练

16. 损失函数与优化

17. 微调

18. RLHF：基于人类反馈的强化学习

19. 上下文窗口与记忆

20. 推理优化

21. 检索增强生成（RAG）

22. 混合专家模型（MoE）

23. AI 对齐与安全

24. 真正的挑战不在于架构

25. 最后思考

相似文章

@shabnam_774: 今晚别刷 Netflix 了，来看看这场斯坦福讲座。它详细解释了 ChatGPT 和 Claude 到底是怎么造出来的……

@0xCodez: https://x.com/0xCodez/status/2058911661973454915

@Xx15573208: 看了很多 Transformer 的文章，能听懂原理，但真正坐下来写代码，完全无从下手。 LLMs-from-scratch 专门解决这个问题：配套《Build a Large Language Model》一书，带你用 PyTorch …

@sairahul1：没人告诉你GPT或Claude内部到底是什么。他们说“transformer”然后就略过了。这个仓库从头构建了一个……

ChatGPT 设置指南

提交意见反馈