@shabnam_774: https://x.com/shabnam_774/status/2058517919760355729
摘要
本文提供了关于现代大型语言模型(如ChatGPT和Claude)从零开始构建的全面逐步解析,涵盖了数据收集、分词、Transformer架构、训练、对齐和部署。
查看缓存全文
缓存时间: 2026/05/24 14:32
如何从零构建 LLM 架构
深入剖析 OpenAI ChatGPT 和 Anthropic Claude 等模型背后的系统
大多数人每天都在使用 AI 模型。
但很少有人真正理解它们是如何构建的。
在底层,大语言模型(LLM)并非魔法。 它们是在海量文本上训练出来的庞大预测系统,依赖精心设计的神经网络架构。
然而,从零构建一个 LLM 远比“训练一个聊天机器人”复杂得多。
它涉及:
-
数据工程
-
分词
-
Transformer 架构
-
分布式训练
-
GPU 优化
-
强化学习
-
推理系统
-
对齐层
-
内存优化
本文将以实用且易于理解的方式,逐步拆解现代 LLM 的完整架构。
1. 什么是 LLM?
大语言模型是一种被训练来预测序列中下一个 token 的神经网络。
示例:
输入:
“The future of AI is”
模型预测:
“transformative”
然后继续逐个 token 预测。
这正是以下系统的基础:
-
OpenAI GPT 模型
-
Anthropic Claude
-
Google Gemini
-
Meta Llama
在规模效应下,这个简单的预测过程变得极其强大。
2. 构建 LLM 的核心流程
完整流程如下:
原始互联网数据 ↓ 清洗 + 过滤 ↓ 分词 ↓ Transformer 架构 ↓ 预训练 ↓ 微调 ↓ RLHF / 对齐 ↓ 推理优化 ↓ 部署
每个阶段都至关重要。
质量低下的数据集或糟糕的架构设计会毁掉整个模型。
3. 第一步:数据收集
LLM 需要海量数据集。
现代前沿模型训练时会使用:
-
书籍
-
维基百科
-
研究论文
-
网站
-
代码库
-
文档
-
对话
-
论坛
数据来源可能包括:
-
Common Crawl
-
GitHub
-
ArXiv
-
Stack Overflow
-
公开数据集
目标是多样性 + 规模。
一个训练在优质数据上的小模型,往往胜过训练在噪声数据上的大模型。
4. 数据清洗与过滤
原始互联网数据杂乱无章。
你必须移除:
-
垃圾信息
-
重复内容
-
低质量文本
-
有害内容
-
格式错误
-
重复序列
-
AI 生成的劣质内容
这一阶段被严重低估。
公司在数据质量上投入巨大资源,因为:
更好的数据 > 更大的模型
常见的过滤方法包括:
-
去重
-
启发式过滤
-
质量评分
-
语言检测
-
安全过滤
-
NSFW 移除
5. 分词:将文本转换为数字
神经网络不理解文字。
它们理解数字。
因此文本变成 token。
示例:
“ChatGPT is powerful” ↓ [1532, 4021, 318, 7821]
这个过程称为分词。
流行的分词方法:
-
BPE(字节对编码)
-
SentencePiece
-
WordPiece
Token 可以表示:
-
单词
-
子词
-
字符
-
标点
高效的分词会显著影响性能和成本。
6. 嵌入:赋予 token 含义
Token 被转换为向量。
向量本质上是一串代表语义含义的数字。
示例:
King → [0.2, -0.8, 1.4, …] Queen → [0.3, -0.7, 1.5, …]
相似的概念在向量空间中彼此靠近。
这就是模型学习单词之间关系的方式。
嵌入是语义理解的基础。
7. Transformer 架构
这改变了一切。
Transformer 架构在里程碑式的论文中提出:
“Attention Is All You Need”,由 Google Brain 研究人员于 2017 年发表。
Transformer 取代了旧系统,例如:
-
RNN
-
LSTM
因为它具有显著更好的扩展性。
如今几乎所有现代 LLM 都采用 Transformer 架构。
8. 自注意力:LLM 的核心
自注意力让模型能够确定:
在上下文中哪些单词最重要。
示例:
“The animal didn’t cross the street because it was tired.”
模型学习到:
“it” 指的是 “animal”
而不是 “street”。
自注意力动态地衡量 token 之间的关系。
这实现了上下文理解。
9. 理解 Q、K、V(查询、键、值)
注意力机制使用:
-
Query 向量
-
Key 向量
-
Value 向量
可以将其视为搜索。
每个 token 会问:
“哪些其他 token 与我相关?”
然后注意力分数决定重要性。
公式:
Attention(Q,K,V) = softmax(QKT / √dk)V
这是现代 AI 中最重要的公式之一。
10. 多头注意力
LLM 不使用单一的注意力机制:
而是同时使用多个注意力头。
每个头学习不同的关系:
-
语法
-
逻辑
-
句法
-
上下文
-
长期依赖
这极大地提升了表示学习能力。
11. 位置编码
Transformer 并行处理 token。
但语言是有顺序的。
因此模型需要位置信息。
示例:
狗咬人 人咬狗
相同的单词,完全不同的含义。
位置编码帮助模型理解序列结构。
12. 前馈网络
在注意力层之后,token 通过前馈神经网络。
这些层:
-
精炼表示
-
增加非线性
-
提升推理能力
一个 Transformer 块通常包含:
注意力 ↓ 归一化 ↓ 前馈网络 ↓ 归一化
重复数十次或数百次。
13. 缩放法则
AI 领域的一个重大发现:
在更多数据上训练的更大模型通常表现更好。
缩放涉及:
-
更多参数
-
更多 token
-
更多算力
示例:
-
GPT-2 → 15 亿参数
-
GPT-3 → 1750 亿参数
现代前沿系统可能使用万亿级参数(有时通过混合专家模型实现)。
14. 训练模型
训练意味着调整权重以最小化预测误差。
过程:
输入句子 ↓ 预测下一个 token ↓ 比较预测值与实际 token ↓ 计算损失 ↓ 反向传播 ↓ 更新权重
这个过程重复数十亿次。
训练大模型可能需要:
-
数千块 GPU
-
数周或数月
-
庞大的分布式系统
15. GPU 与分布式训练
LLM 是计算巨兽。
训练需要集群 GPU,例如:
-
NVIDIA H100
-
A100
训练方法包括:
-
数据并行
-
张量并行
-
流水线并行
常用框架:
-
PyTorch
-
DeepSpeed
-
Megatron-LM
-
JAX
基础架构变得与模型设计同等重要。
16. 损失函数与优化
模型使用优化算法进行学习,例如:
-
AdamW
-
SGD 变体
目标:
最小化预测损失。
语言建模通常使用交叉熵损失。
损失越小 = 预测越好。
17. 微调
预训练之后,模型被专用于特定任务。
示例:
-
编程助手
-
医学模型
-
法律 AI
-
客服机器人
微调使用较小的精选数据集。
这使得基础模型适配特定任务。
18. RLHF:基于人类反馈的强化学习
这正是 ChatGPT 类系统具备对话能力的关键。
人类对输出进行排名。
模型学习偏好。
流程:
基础模型 ↓ 监督微调 ↓ 奖励模型 ↓ 强化学习
RLHF 帮助模型变得:
-
有帮助
-
无害
-
诚实
19. 上下文窗口与记忆
上下文窗口 = 模型在推理时能够“记住”的文本量。
示例:
-
4K token
-
32K token
-
128K+ token
更长的上下文需要高级优化,因为注意力成本会快速增长。
新技术包括:
-
Flash Attention
-
滑动窗口注意力
-
检索增强
20. 推理优化
训练成本高昂。
推理必须快速。
优化技术包括:
-
量化
-
KV 缓存
-
推测解码
-
TensorRT
-
蒸馏
目标:
降低延迟 + 降低成本。
21. 检索增强生成(RAG)
LLM 并非真正“知道”一切。
因此现代系统会动态检索外部知识。
流程:
用户查询 ↓ 搜索数据库 ↓ 检索相关片段 ↓ 注入提示词 ↓ 生成回复
这提升了:
-
准确性
-
时效性
-
企业应用能力
22. 混合专家模型(MoE)
现代前沿模型越来越多地采用 MoE 架构。
并非激活整个模型:
每个 token 只激活选定的专家网络。
优势:
-
有效参数量更大
-
计算成本更低
-
更好的扩展效率
这被认为在许多现代系统中非常重要。
23. AI 对齐与安全
原始模型可能产生有害输出。
对齐层有助于强制执行:
-
安全性
-
策略合规
-
真实性
-
行为约束
技术包括:
-
宪法式 AI
-
RLHF
-
Red teaming
-
对抗性测试
对齐已成为 AI 领域最难的问题之一。
24. 真正的挑战不在于架构
大多数人认为最困难的部分是构建 Transformer。
事实并非如此。
最困难的部分是:
-
数据质量
-
基础设施
-
扩展性
-
优化
-
对齐
-
推理经济性
Transformer 论文仅仅是个开始。
真正的工程挑战是让这些系统可扩展且可用。
25. 最后思考
LLM 是现代历史上最重要的技术突破之一。
但它们不是魔法。
它们是以下因素的结晶:
-
数学
-
分布式系统
-
海量数据集
-
优化工程
-
人类反馈循环
而且我们仍然处于极早期。
AI 的未来十年很可能将由以下方面定义:
-
更好的推理能力
-
自主智能体
-
多模态系统
-
高效架构
-
实时个性化
理解 LLM 的构建方式对于工程师来说已不再是可选项。
它正在成为技术领域的基石知识。
相似文章
@shabnam_774: 今晚别刷 Netflix 了,来看看这场斯坦福讲座。它详细解释了 ChatGPT 和 Claude 到底是怎么造出来的……
推特上分享了一场斯坦福讲座,免费讲解 ChatGPT 和 Claude 的构建原理。
@0xCodez: https://x.com/0xCodez/status/2058911661973454915
一份详细指南,解释构建大型语言模型的五个阶段流程,强调数据质量和工程实践比架构更为重要。
@Xx15573208: 看了很多 Transformer 的文章,能听懂原理,但真正坐下来写代码,完全无从下手。 LLMs-from-scratch 专门解决这个问题:配套《Build a Large Language Model》一书,带你用 PyTorch …
LLMs-from-scratch 是一个 GitHub 仓库,配套《Build a Large Language Model》一书,提供从零用 PyTorch 实现 GPT 的完整代码,涵盖预训练、微调、RLHF 等全流程,已获 93K+ stars,适合想深入理解大模型原理的开发者。
使用ChatGPT分析数据
OpenAI Academy发布了一份关于使用ChatGPT进行数据分析的指南,用户可上传文件并通过自然语言提问来探索、清理和可视化数据,无需掌握公式或仪表板专业知识。
@DamiDefi: 一位开发者刚刚绘制了支撑Claude、ChatGPT以及你正在构建的每个智能体栈的所有AI概念。20个概念…
一位开发者制作了一个免费的40分钟详解,解释了Claude和ChatGPT等模型背后的20个关键AI概念,涵盖了tokenization(分词)、attention(注意力机制)、RAG(检索增强生成)、智能体等,旨在为构建者提供实用的心智模型。