@777BHAVYA: 如果你想从头到尾研究LLM,从Vaswani时期的每个组件到现在的量化等...

X AI KOLs Timeline 工具

摘要

一条推文推荐了《语言AI手册》,这是一本免费在线资源,涵盖从经典NLP到现代Transformers、量化、强化学习和安全性等LLM组件。

如果你想从头到尾研究LLM,从Vaswani时期的每个组件到现在的量化、预归一化与后归一化、LLM的强化学习、机制解释、安全性等等 https://t.co/vqBm1DQvwG
查看原文
查看缓存全文

缓存时间: 2026/05/25 12:52

如果你想从头到尾学习大语言模型(LLM),无论是从Vaswani论文以来的每个组件,包括量化、预归一化与后归一化、强化学习用于LLM、机制可解释性、安全性等等,都可以参考以下资料:

https://t.co/vqBm1DQvwG


语言AI手册

来源:https://mbrenndoerfer.com/books/language-ai-handbook

关于本书

语言AI已从学术好奇心转变为我们这个时代的定义性技术。但在ChatGPT和Claude的光环之下,隐藏着丰富的技术图景,大多数从业者仅能窥其一角。本手册为你呈现完整的画面——从依然重要的经典NLP技术,到驱动当今最强大系统的前沿架构。

从永不过时的基础开始:分词、嵌入以及影响现代方法的统计基础。然后深入Transformer架构,不仅学习如何使用它,更要理解它实际的工作原理。从数学上理解自注意力,把握为何位置编码如此重要,并了解层归一化等架构选择如何影响训练动态。

追踪你的进度

登录后可标记章节完成情况、查看测验分数以及学习历程

登录 →

目录

第一部分:文本即数据

5章1 #### 字符编码 涵盖ASCII起源与7位限制、Unicode码点与平面、UTF-8变长编码方案、字节顺序标记与端序、编码检测启发式方法、常见编码错误与乱码、Python中的实际编解码。 (https://mbrenndoerfer.com/writing/character-encoding-ascii-unicode-utf8-nlp)
2 #### 文本归一化 涵盖Unicode归一化形式(NFC、NFD、NFKC、NFKD)、大小写折叠与转小写、重音与变音符处理、空白符归一化、连字扩展、全角转半角、实现归一化流水线。 (https://mbrenndoerfer.com/writing/text-normalization-unicode-nlp)
3 #### 正则表达式 涵盖正则语法与元字符、字符类与量词、分组与反向引用、前瞻与后顾断言、贪婪与懒惰匹配、常见NLP模式(电子邮件、URL、日期)、正则性能考量。 (https://mbrenndoerfer.com/writing/regular-expressions-pattern-matching-nlp-python)
4 #### 句子分割 涵盖句点消歧挑战、缩写处理、基于规则的边界检测、Punkt句子分词器算法、分割评估指标、处理边缘情况(引号、括号、列表)、多语言分割问题。 (https://mbrenndoerfer.com/writing/sentence-segmentation-punkt-algorithm-nlp)
5 #### 词语分词 涵盖空白符分词局限、标点处理规则、缩写与附着语素、语言特有挑战(中文、日文、德语复合词)、宾州树库分词标准、构建基于规则的分词器、分词评估。 (https://mbrenndoerfer.com/writing/word-tokenization-nlp-guide)

第二部分:经典文本表示

9章6 #### 词袋模型 涵盖文档-词项矩阵构建、基于语料库构建词汇表、词计数与频率向量、稀疏矩阵表示(CSR/CSC格式)、词汇表剪枝(min_df, max_df)、二进制与计数表示、词序丢失的局限。 (https://mbrenndoerfer.com/writing/bag-of-words-text-representation)
7 #### N-gram 涵盖二元与三元组提取、N-gram词汇爆炸、N-gram频率分布、齐普夫定律在N-gram中的应用、字符N-gram提升鲁棒性、跳跃gram与灵活窗口、N-gram索引用于搜索。 (https://mbrenndoerfer.com/writing/n-grams-bigrams-trigrams-text-representation-nlp)
8 #### N-gram语言模型 涵盖马尔可夫假设与链式法则、最大似然估计、序列概率计算、处理未见N-gram、起始与结束标记、从N-gram模型生成文本、模型存储与查找效率。 (https://mbrenndoerfer.com/writing/n-gram-language-models-probability-text-generation)
9 #### 平滑技术 涵盖加一(拉普拉斯)平滑、加k平滑与调参、古德-图灵平滑推导、Kneser-Ney平滑直觉与公式、插值与回退、改进型Kneser-Ney、平滑方法经验对比。 (https://mbrenndoerfer.com/writing/smoothing-techniques-ngram-language-models-laplace-kneser-ney)
10 #### 困惑度 涵盖交叉熵定义与推导、困惑度作为分支因子、与每字符比特数的关系、保留集评估方法、困惑度与下游性能的对比、用困惑度比较模型、困惑度的局限与注意事项。 (https://mbrenndoerfer.com/writing/perplexity-language-model-evaluation-metric)
11 #### 词频 涵盖原始词频、对数缩放词频、布尔词频、增强词频、L2归一化频率向量、词频稀疏模式、高效词频计算。 (https://mbrenndoerfer.com/writing/term-frequency-weighting-schemes-text-analysis)
12 #### 逆文档频率 涵盖文档频率计算、IDF公式推导、IDF直觉(罕见词更重要)、平滑IDF变体、跨语料库分割的IDF、与信息论的关系、高效实现IDF。 (https://mbrenndoerfer.com/writing/inverse-document-frequency-idf-text-weighting)
13 #### TF-IDF 涵盖TF-IDF公式与变体、TF-IDF向量计算、TF-IDF归一化选项、BM25作为TF-IDF扩展、基于TF-IDF的文档相似度、TF-IDF用于特征提取、sklearn TfidfVectorizer深入解析。 (https://mbrenndoerfer.com/writing/tf-idf-term-frequency-inverse-document-frequency-text-representation)
14 #### BM25 涵盖BM25从概率信息检索的推导、饱和参数k1、长度归一化参数b、BM25+与BM25L变体、字段加权BM25、实现BM25评分、BM25与TF-IDF的经验对比。 (https://mbrenndoerfer.com/writing/bm25-search-algorithm-elasticsearch-implementation)

第三部分:分布语义学

4章15 #### 分布假设 涵盖Firth的“观其伴,知其意”,分布相似性直觉、上下文窗口定义、聚合关系与组合关系、基于分布的词语相似度、分布语义学的局限。 (https://mbrenndoerfer.com/writing/distributional-hypothesis-word-meaning-context)
16 #### 共现矩阵 涵盖词-词共现矩阵、词-文档矩阵、上下文窗口大小影响、距离加权、对称与方向性上下文、矩阵稀疏模式、高效构建算法。 (https://mbrenndoerfer.com/writing/co-occurrence-matrices-distributional-semantics-nlp)
17 #### 点互信息 涵盖PMI公式推导、PMI作为关联度的解释、正点互信息(PPMI)、移位PPMI变体、PMI矩阵性质、PMI与原始计数的对比、PMI用于搭配提取。 (https://mbrenndoerfer.com/writing/pointwise-mutual-information-word-associations-nlp)
18 #### 奇异值分解 涵盖SVD数学形式、截断SVD用于降维、潜在语义分析(LSA)、选择嵌入维度、SVD计算复杂度、随机SVD用于大规模、解释SVD维度。 (https://mbrenndoerfer.com/writing/singular-value-decomposition-lsa-word-embeddings)

第四部分:词嵌入

9章19 #### Skip-gram模型 涵盖Skip-gram架构图、输入/输出表示、词汇表上的Softmax、Skip-gram目标函数、训练数据生成、窗口大小超参数、Skip-gram与CBOW直觉对比。 (https://mbrenndoerfer.com/writing/skip-gram-model-word2vec-word-embeddings)
20 #### CBOW模型 涵盖CBOW架构、上下文词平均、CBOW目标函数、CBOW与Skip-gram训练速度对比、CBOW对高频词的处理、实现CBOW前向传播、CBOW梯度推导。 (https://mbrenndoerfer.com/writing/cbow-model-word2vec-word-embeddings)
21 #### 负采样 涵盖Softmax计算瓶颈、负采样目标推导、采样分布(unigram^0.75)、负样本数量超参数、负采样梯度计算、NCE与负采样对比、实现高效采样。 (https://mbrenndoerfer.com/writing/negative-sampling-word-embeddings)
22 #### 层次Softmax 涵盖二叉树构建(哈夫曼编码)、路径概率计算、层次Softmax目标、沿路径的梯度计算、树结构对学习的影响、层次Softmax与负采样对比、何时使用每种方法。 (https://mbrenndoerfer.com/writing/hierarchical-softmax-word-embeddings)
23 #### Word2Vec训练 涵盖数据预处理流水线、高频词子采样、学习率调度、小批量与在线训练、收敛监控、gensim Word2Vec使用、PyTorch从零训练。 (https://mbrenndoerfer.com/writing/training-word2vec-pipeline-gensim-pytorch-implementation)
24 #### 词语类比 涵盖类比向量运算、平行四边形模型、类比评估数据集、3CosAdd与3CosMul方法、类比准确率指标、类比评估局限、类比揭示的嵌入特性。 (https://mbrenndoerfer.com/writing/word-analogy-vector-arithmetic-semantic-relationships)
25 #### GloVe 涵盖GloVe目标函数推导、加权最小二乘形式、与矩阵分解的关系、权重函数设计、GloVe中的偏置项、GloVe与Word2Vec对比、高效训练GloVe。 (https://mbrenndoerfer.com/writing/glove-word-embeddings-co-occurrence-matrix-factorization)
26 #### FastText 涵盖字符n-gram表示、词向量作为n-gram之和、FastText架构、处理OOV词、形态学感知、FastText用于形态丰富语言、训练FastText模型。 (https://mbrenndoerfer.com/writing/fasttext-subword-embeddings-character-ngrams)
27 #### 嵌入评估 涵盖内在与外在评估、词语相似度数据集(SimLex, WordSim)、类比准确率、嵌入可视化(t-SNE, UMAP)、下游任务评估、嵌入偏差检测、评估陷阱。 (https://mbrenndoerfer.com/writing/word-embedding-evaluation-intrinsic-extrinsic-methods)

第五部分:子词分词

8章28 #### 词汇问题 涵盖OOV词问题、词汇表规模爆炸、罕见词表示、形态学生产能力、复合词、代码与技术文本、子词单元的优势论证。 (https://mbrenndoerfer.com/writing/vocabulary-problem-subword-tokenization-challenges)
29 #### 字节对编码(BPE) 涵盖BPE算法逐步讲解、合并规则学习、词汇表大小控制、BPE编码流程、BPE解码流程、从零实现BPE、BPE超参数。 (https://mbrenndoerfer.com/writing/byte-pair-encoding-subword-tokenization-guide)
30 #### WordPiece 涵盖WordPiece与BPE的区别、合并的似然目标、贪婪分词算法、##前缀表示法、BERT中的WordPiece、训练WordPiece分词器、处理未知字符。 (https://mbrenndoerfer.com/writing/wordpiece-tokenization-bert-subword-algorithm)
31 #### 一元语言模型分词 涵盖一元语言模型形式化、EM算法训练、用于分词的维特比解码、多分割采样、子词正则化、一元与BPE对比、SentencePiece一元模式。 (https://mbrenndoerfer.com/writing/unigram-language-model-tokenization)
32 #### SentencePiece 涵盖将文本视为原始字节、空白符处理(▁前缀)、BPE与一元模式、从原始文本训练、消除预分词、生产环境中的SentencePiece、多语言分词。 (https://mbrenndoerfer.com/writing/sentencepiece-subword-tokenization-bpe-unigram)
33 #### 分词器训练 涵盖语料库准备、词汇表大小选择、特殊标记配置、使用HuggingFace分词器训练、保存与加载分词器、分词器版本管理、领域特定分词器。 (https://mbrenndoerfer.com/writing/tokenizer-training-guide-huggingface-custom-nlp)
34 #### 特殊标记 涵盖[CLS]、[SEP]、[PAD]、[MASK]、[UNK]标记、序列起始/结束标记、自定义特殊标记、特殊标记嵌入、标记类型ID、生成中的特殊标记处理。 (https://mbrenndoerfer.com/writing/special-tokens-transformers-cls-sep-pad-mask)
35 #### 分词挑战 涵盖数字分词问题、代码分词、多语言文本混合、表情符号与Unicode边缘情况、分词伪影、对抗性分词、分词质量度量。 (https://mbrenndoerfer.com/writing/tokenization-challenges-numbers-code-multilingual-unicode)

第六部分:序列标注

8章36 #### 词性标注 涵盖词性标记集(宾州树库、通用)、作为分类问题的词性标注、上下文消歧、词性标注准确率指标、下游任务中的词性标注、基于规则与统计标注器。 (https://mbrenndoerfer.com/writing/part-of-speech-tagging-nlp-guide)
37 #### 命名实体识别 涵盖实体类型(PER、ORG、LOC等)、作为序列标注的NER、嵌套实体挑战、实体边界检测、NER评估(精确匹配与部分匹配)、NER数据集与基准。 (https://mbrenndoerfer.com/writing/named-entity-recognition-ner-tutorial)
38 #### BIO标注 涵盖BIO方案解释、BIOES/BILOU变体、将跨度转换为BIO标签、BIO解码为跨度、处理标注不一致、多标签场景下的BIO、实现BIO工具函数。 (https://mbrenndoerfer.com/writing/bio-tagging-sequence-labeling-ner)
39 #### 组块分析 涵盖名词短语组块、组块类型(NP, VP, PP)、组块的IOB标注、组块分析与完整句法分析对比、组块评估、作为预处理的组块、NLTK中的正则组块。 (https://mbrenndoerfer.com/writing/chunking-shallow-parsing-nlp)
40 #### 隐马尔可夫模型 涵盖HMM组件(状态、观测、转移)、发射与转移概率、HMM假设(马尔可夫、独立性)、HMM用于词性标注、HMM参数估计、HMM在NLP中的局限。 (https://mbrenndoerfer.com/writing/hidden-markov-models-sequence-labeling-nlp)
41 #### 维特比算法 涵盖最优路径问题形式化、维特比递归推导、回溯指针追踪、维特比复杂度分析、对数空间计算、高效实现维特比、维特比作为波束搜索基础。 (https://mbrenndoerfer.com/writing/viterbi-algorithm-sequence-labeling)
42 #### 条件随机场 涵盖CRF与HMM对比、CRF特征函数、对数线性形式、配分函数计算、CRF用于NER、CRF推理复杂度、神经CRF层。 (https://mbrenndoerfer.com/writing/conditional-random-fields-sequence-labeling-nlp)
43 #### CRF训练 涵盖CRF对数似然目标、前向-后向算法、梯度计算、L-BFGS优化、特征模板设计、CRF正则化、CRF训练收敛。 (https://mbrenndoerfer.com/writing/crf-training-forward-backward-lbfgs-optimization)

第七部分:神经网络基础

13章44 #### 线性分类器 涵盖线性决策边界、权重向量与偏置、点积解释、多类分类(softmax)、线性分类器局限、梯度下降训练。 (https://mbrenndoerfer.com/writing/linear-classifiers-neural-network-foundations)
45 #### 激活函数 涵盖Sigmoid函数与饱和、tanh性质、ReLU与死亡ReLU、Leaky ReLU与P

相似文章

LLMs 101:实用指南(2026年版)

X AI KOLs

一份关于LLMs的全面实用指南,涵盖推理机制、令牌、Transformer、KV缓存、本地部署硬件和量化,截至2026年5月。

大语言模型与本地AI硬件的推理引擎(2026版)

X AI KOLs

本文提供了一份全面的指南,针对2026年本地AI硬件上的大语言模型推理引擎,解释了如何根据硬件策略、工作负载和服务模型进行选择,并涵盖了诸如llama.cpp、MLX、ExLlamaV2/3、vLLM、SGLang、TensorRT-LLM和NVIDIA Dynamo等引擎。

逐步 LLM 工程项目 (2026 版)

X AI KOLs

一个基于项目的路线图,通过构建从分词器到服务栈的关键组件来学习 LLM 工程,包括硬件基础和后训练技术。