@shabnam_774: https://x.com/shabnam_774/status/2058517919760355729

X AI KOLs Timeline 新闻

摘要

本文提供了关于现代大型语言模型(如ChatGPT和Claude)从零开始构建的全面逐步解析,涵盖了数据收集、分词、Transformer架构、训练、对齐和部署。

https://t.co/tmwGONbU2X
查看原文
查看缓存全文

缓存时间: 2026/05/24 14:32

如何从零构建 LLM 架构

深入剖析 OpenAI ChatGPT 和 Anthropic Claude 等模型背后的系统

大多数人每天都在使用 AI 模型。

但很少有人真正理解它们是如何构建的。

在底层,大语言模型(LLM)并非魔法。 它们是在海量文本上训练出来的庞大预测系统,依赖精心设计的神经网络架构。

然而,从零构建一个 LLM 远比“训练一个聊天机器人”复杂得多。

它涉及:

  • 数据工程

  • 分词

  • Transformer 架构

  • 分布式训练

  • GPU 优化

  • 强化学习

  • 推理系统

  • 对齐层

  • 内存优化

本文将以实用且易于理解的方式,逐步拆解现代 LLM 的完整架构。

1. 什么是 LLM?

大语言模型是一种被训练来预测序列中下一个 token 的神经网络。

示例:

输入:

“The future of AI is”

模型预测:

“transformative”

然后继续逐个 token 预测。

这正是以下系统的基础:

  • OpenAI GPT 模型

  • Anthropic Claude

  • Google Gemini

  • Meta Llama

在规模效应下,这个简单的预测过程变得极其强大。

2. 构建 LLM 的核心流程

完整流程如下:

原始互联网数据 ↓ 清洗 + 过滤 ↓ 分词 ↓ Transformer 架构 ↓ 预训练 ↓ 微调 ↓ RLHF / 对齐 ↓ 推理优化 ↓ 部署

每个阶段都至关重要。

质量低下的数据集或糟糕的架构设计会毁掉整个模型。

3. 第一步:数据收集

LLM 需要海量数据集。

现代前沿模型训练时会使用:

  • 书籍

  • 维基百科

  • 研究论文

  • 网站

  • 代码库

  • 文档

  • 对话

  • 论坛

数据来源可能包括:

  • Common Crawl

  • GitHub

  • ArXiv

  • Stack Overflow

  • 公开数据集

目标是多样性 + 规模。

一个训练在优质数据上的小模型,往往胜过训练在噪声数据上的大模型。

4. 数据清洗与过滤

原始互联网数据杂乱无章。

你必须移除:

  • 垃圾信息

  • 重复内容

  • 低质量文本

  • 有害内容

  • 格式错误

  • 重复序列

  • AI 生成的劣质内容

这一阶段被严重低估。

公司在数据质量上投入巨大资源,因为:

更好的数据 > 更大的模型

常见的过滤方法包括:

  • 去重

  • 启发式过滤

  • 质量评分

  • 语言检测

  • 安全过滤

  • NSFW 移除

5. 分词:将文本转换为数字

神经网络不理解文字。

它们理解数字。

因此文本变成 token。

示例:

“ChatGPT is powerful” ↓ [1532, 4021, 318, 7821]

这个过程称为分词。

流行的分词方法:

  • BPE(字节对编码)

  • SentencePiece

  • WordPiece

Token 可以表示:

  • 单词

  • 子词

  • 字符

  • 标点

高效的分词会显著影响性能和成本。

6. 嵌入:赋予 token 含义

Token 被转换为向量。

向量本质上是一串代表语义含义的数字。

示例:

King → [0.2, -0.8, 1.4, …] Queen → [0.3, -0.7, 1.5, …]

相似的概念在向量空间中彼此靠近。

这就是模型学习单词之间关系的方式。

嵌入是语义理解的基础。

7. Transformer 架构

这改变了一切。

Transformer 架构在里程碑式的论文中提出:

“Attention Is All You Need”,由 Google Brain 研究人员于 2017 年发表。

Transformer 取代了旧系统,例如:

  • RNN

  • LSTM

因为它具有显著更好的扩展性。

如今几乎所有现代 LLM 都采用 Transformer 架构。

8. 自注意力:LLM 的核心

自注意力让模型能够确定:

在上下文中哪些单词最重要。

示例:

“The animal didn’t cross the street because it was tired.”

模型学习到:

“it” 指的是 “animal”

而不是 “street”。

自注意力动态地衡量 token 之间的关系。

这实现了上下文理解。

9. 理解 Q、K、V(查询、键、值)

注意力机制使用:

  • Query 向量

  • Key 向量

  • Value 向量

可以将其视为搜索。

每个 token 会问:

“哪些其他 token 与我相关?”

然后注意力分数决定重要性。

公式:

Attention(Q,K,V) = softmax(QKT / √dk)V

这是现代 AI 中最重要的公式之一。

10. 多头注意力

LLM 不使用单一的注意力机制:

而是同时使用多个注意力头。

每个头学习不同的关系:

  • 语法

  • 逻辑

  • 句法

  • 上下文

  • 长期依赖

这极大地提升了表示学习能力。

11. 位置编码

Transformer 并行处理 token。

但语言是有顺序的。

因此模型需要位置信息。

示例:

狗咬人 人咬狗

相同的单词,完全不同的含义。

位置编码帮助模型理解序列结构。

12. 前馈网络

在注意力层之后,token 通过前馈神经网络。

这些层:

  • 精炼表示

  • 增加非线性

  • 提升推理能力

一个 Transformer 块通常包含:

注意力 ↓ 归一化 ↓ 前馈网络 ↓ 归一化

重复数十次或数百次。

13. 缩放法则

AI 领域的一个重大发现:

在更多数据上训练的更大模型通常表现更好。

缩放涉及:

  • 更多参数

  • 更多 token

  • 更多算力

示例:

  • GPT-2 → 15 亿参数

  • GPT-3 → 1750 亿参数

现代前沿系统可能使用万亿级参数(有时通过混合专家模型实现)。

14. 训练模型

训练意味着调整权重以最小化预测误差。

过程:

输入句子 ↓ 预测下一个 token ↓ 比较预测值与实际 token ↓ 计算损失 ↓ 反向传播 ↓ 更新权重

这个过程重复数十亿次。

训练大模型可能需要:

  • 数千块 GPU

  • 数周或数月

  • 庞大的分布式系统

15. GPU 与分布式训练

LLM 是计算巨兽。

训练需要集群 GPU,例如:

  • NVIDIA H100

  • A100

训练方法包括:

  • 数据并行

  • 张量并行

  • 流水线并行

常用框架:

  • PyTorch

  • DeepSpeed

  • Megatron-LM

  • JAX

基础架构变得与模型设计同等重要。

16. 损失函数与优化

模型使用优化算法进行学习,例如:

  • AdamW

  • SGD 变体

目标:

最小化预测损失。

语言建模通常使用交叉熵损失。

损失越小 = 预测越好。

17. 微调

预训练之后,模型被专用于特定任务。

示例:

  • 编程助手

  • 医学模型

  • 法律 AI

  • 客服机器人

微调使用较小的精选数据集。

这使得基础模型适配特定任务。

18. RLHF:基于人类反馈的强化学习

这正是 ChatGPT 类系统具备对话能力的关键。

人类对输出进行排名。

模型学习偏好。

流程:

基础模型 ↓ 监督微调 ↓ 奖励模型 ↓ 强化学习

RLHF 帮助模型变得:

  • 有帮助

  • 无害

  • 诚实

19. 上下文窗口与记忆

上下文窗口 = 模型在推理时能够“记住”的文本量。

示例:

  • 4K token

  • 32K token

  • 128K+ token

更长的上下文需要高级优化,因为注意力成本会快速增长。

新技术包括:

  • Flash Attention

  • 滑动窗口注意力

  • 检索增强

20. 推理优化

训练成本高昂。

推理必须快速。

优化技术包括:

  • 量化

  • KV 缓存

  • 推测解码

  • TensorRT

  • 蒸馏

目标:

降低延迟 + 降低成本。

21. 检索增强生成(RAG)

LLM 并非真正“知道”一切。

因此现代系统会动态检索外部知识。

流程:

用户查询 ↓ 搜索数据库 ↓ 检索相关片段 ↓ 注入提示词 ↓ 生成回复

这提升了:

  • 准确性

  • 时效性

  • 企业应用能力

22. 混合专家模型(MoE)

现代前沿模型越来越多地采用 MoE 架构。

并非激活整个模型:

每个 token 只激活选定的专家网络。

优势:

  • 有效参数量更大

  • 计算成本更低

  • 更好的扩展效率

这被认为在许多现代系统中非常重要。

23. AI 对齐与安全

原始模型可能产生有害输出。

对齐层有助于强制执行:

  • 安全性

  • 策略合规

  • 真实性

  • 行为约束

技术包括:

  • 宪法式 AI

  • RLHF

  • Red teaming

  • 对抗性测试

对齐已成为 AI 领域最难的问题之一。

24. 真正的挑战不在于架构

大多数人认为最困难的部分是构建 Transformer。

事实并非如此。

最困难的部分是:

  • 数据质量

  • 基础设施

  • 扩展性

  • 优化

  • 对齐

  • 推理经济性

Transformer 论文仅仅是个开始。

真正的工程挑战是让这些系统可扩展且可用。

25. 最后思考

LLM 是现代历史上最重要的技术突破之一。

但它们不是魔法。

它们是以下因素的结晶:

  • 数学

  • 分布式系统

  • 海量数据集

  • 优化工程

  • 人类反馈循环

而且我们仍然处于极早期。

AI 的未来十年很可能将由以下方面定义:

  • 更好的推理能力

  • 自主智能体

  • 多模态系统

  • 高效架构

  • 实时个性化

理解 LLM 的构建方式对于工程师来说已不再是可选项。

它正在成为技术领域的基石知识。

相似文章

@Xx15573208: 看了很多 Transformer 的文章,能听懂原理,但真正坐下来写代码,完全无从下手。 LLMs-from-scratch 专门解决这个问题:配套《Build a Large Language Model》一书,带你用 PyTorch …

X AI KOLs Timeline

LLMs-from-scratch 是一个 GitHub 仓库,配套《Build a Large Language Model》一书,提供从零用 PyTorch 实现 GPT 的完整代码,涵盖预训练、微调、RLHF 等全流程,已获 93K+ stars,适合想深入理解大模型原理的开发者。

使用ChatGPT分析数据

OpenAI Blog

OpenAI Academy发布了一份关于使用ChatGPT进行数据分析的指南,用户可上传文件并通过自然语言提问来探索、清理和可视化数据,无需掌握公式或仪表板专业知识。