@777BHAVYA: 如果你想从头到尾研究LLM，从Vaswani时期的每个组件到现在的量化等...

X AI KOLs Timeline 2026/05/25 10:43 工具

llm nlp learning-resource handbook transformer open-source

摘要

一条推文推荐了《语言AI手册》，这是一本免费在线资源，涵盖从经典NLP到现代Transformers、量化、强化学习和安全性等LLM组件。

如果你想从头到尾研究LLM，从Vaswani时期的每个组件到现在的量化、预归一化与后归一化、LLM的强化学习、机制解释、安全性等等 https://t.co/vqBm1DQvwG

查看原文

查看缓存全文

缓存时间: 2026/05/25 12:52

如果你想从头到尾学习大语言模型（LLM），无论是从Vaswani论文以来的每个组件，包括量化、预归一化与后归一化、强化学习用于LLM、机制可解释性、安全性等等，都可以参考以下资料：

https://t.co/vqBm1DQvwG

语言AI手册

来源：https://mbrenndoerfer.com/books/language-ai-handbook

关于本书

语言AI已从学术好奇心转变为我们这个时代的定义性技术。但在ChatGPT和Claude的光环之下，隐藏着丰富的技术图景，大多数从业者仅能窥其一角。本手册为你呈现完整的画面——从依然重要的经典NLP技术，到驱动当今最强大系统的前沿架构。

从永不过时的基础开始：分词、嵌入以及影响现代方法的统计基础。然后深入Transformer架构，不仅学习如何使用它，更要理解它实际的工作原理。从数学上理解自注意力，把握为何位置编码如此重要，并了解层归一化等架构选择如何影响训练动态。

追踪你的进度

登录后可标记章节完成情况、查看测验分数以及学习历程

5章1 #### 字符编码涵盖ASCII起源与7位限制、Unicode码点与平面、UTF-8变长编码方案、字节顺序标记与端序、编码检测启发式方法、常见编码错误与乱码、Python中的实际编解码。（https://mbrenndoerfer.com/writing/character-encoding-ascii-unicode-utf8-nlp）
2 #### 文本归一化涵盖Unicode归一化形式（NFC、NFD、NFKC、NFKD）、大小写折叠与转小写、重音与变音符处理、空白符归一化、连字扩展、全角转半角、实现归一化流水线。（https://mbrenndoerfer.com/writing/text-normalization-unicode-nlp）
3 #### 正则表达式涵盖正则语法与元字符、字符类与量词、分组与反向引用、前瞻与后顾断言、贪婪与懒惰匹配、常见NLP模式（电子邮件、URL、日期）、正则性能考量。（https://mbrenndoerfer.com/writing/regular-expressions-pattern-matching-nlp-python）
4 #### 句子分割涵盖句点消歧挑战、缩写处理、基于规则的边界检测、Punkt句子分词器算法、分割评估指标、处理边缘情况（引号、括号、列表）、多语言分割问题。（https://mbrenndoerfer.com/writing/sentence-segmentation-punkt-algorithm-nlp）
5 #### 词语分词涵盖空白符分词局限、标点处理规则、缩写与附着语素、语言特有挑战（中文、日文、德语复合词）、宾州树库分词标准、构建基于规则的分词器、分词评估。（https://mbrenndoerfer.com/writing/word-tokenization-nlp-guide）

第二部分：经典文本表示

9章6 #### 词袋模型涵盖文档-词项矩阵构建、基于语料库构建词汇表、词计数与频率向量、稀疏矩阵表示（CSR/CSC格式）、词汇表剪枝（min_df, max_df）、二进制与计数表示、词序丢失的局限。（https://mbrenndoerfer.com/writing/bag-of-words-text-representation）
7 #### N-gram 涵盖二元与三元组提取、N-gram词汇爆炸、N-gram频率分布、齐普夫定律在N-gram中的应用、字符N-gram提升鲁棒性、跳跃gram与灵活窗口、N-gram索引用于搜索。（https://mbrenndoerfer.com/writing/n-grams-bigrams-trigrams-text-representation-nlp）
8 #### N-gram语言模型涵盖马尔可夫假设与链式法则、最大似然估计、序列概率计算、处理未见N-gram、起始与结束标记、从N-gram模型生成文本、模型存储与查找效率。（https://mbrenndoerfer.com/writing/n-gram-language-models-probability-text-generation）
9 #### 平滑技术涵盖加一（拉普拉斯）平滑、加k平滑与调参、古德-图灵平滑推导、Kneser-Ney平滑直觉与公式、插值与回退、改进型Kneser-Ney、平滑方法经验对比。（https://mbrenndoerfer.com/writing/smoothing-techniques-ngram-language-models-laplace-kneser-ney）
10 #### 困惑度涵盖交叉熵定义与推导、困惑度作为分支因子、与每字符比特数的关系、保留集评估方法、困惑度与下游性能的对比、用困惑度比较模型、困惑度的局限与注意事项。（https://mbrenndoerfer.com/writing/perplexity-language-model-evaluation-metric）
11 #### 词频涵盖原始词频、对数缩放词频、布尔词频、增强词频、L2归一化频率向量、词频稀疏模式、高效词频计算。（https://mbrenndoerfer.com/writing/term-frequency-weighting-schemes-text-analysis）
12 #### 逆文档频率涵盖文档频率计算、IDF公式推导、IDF直觉（罕见词更重要）、平滑IDF变体、跨语料库分割的IDF、与信息论的关系、高效实现IDF。（https://mbrenndoerfer.com/writing/inverse-document-frequency-idf-text-weighting）
13 #### TF-IDF 涵盖TF-IDF公式与变体、TF-IDF向量计算、TF-IDF归一化选项、BM25作为TF-IDF扩展、基于TF-IDF的文档相似度、TF-IDF用于特征提取、sklearn TfidfVectorizer深入解析。（https://mbrenndoerfer.com/writing/tf-idf-term-frequency-inverse-document-frequency-text-representation）
14 #### BM25 涵盖BM25从概率信息检索的推导、饱和参数k1、长度归一化参数b、BM25+与BM25L变体、字段加权BM25、实现BM25评分、BM25与TF-IDF的经验对比。（https://mbrenndoerfer.com/writing/bm25-search-algorithm-elasticsearch-implementation）

第三部分：分布语义学

4章15 #### 分布假设涵盖Firth的“观其伴，知其意”，分布相似性直觉、上下文窗口定义、聚合关系与组合关系、基于分布的词语相似度、分布语义学的局限。（https://mbrenndoerfer.com/writing/distributional-hypothesis-word-meaning-context）
16 #### 共现矩阵涵盖词-词共现矩阵、词-文档矩阵、上下文窗口大小影响、距离加权、对称与方向性上下文、矩阵稀疏模式、高效构建算法。（https://mbrenndoerfer.com/writing/co-occurrence-matrices-distributional-semantics-nlp）
17 #### 点互信息涵盖PMI公式推导、PMI作为关联度的解释、正点互信息（PPMI）、移位PPMI变体、PMI矩阵性质、PMI与原始计数的对比、PMI用于搭配提取。（https://mbrenndoerfer.com/writing/pointwise-mutual-information-word-associations-nlp）
18 #### 奇异值分解涵盖SVD数学形式、截断SVD用于降维、潜在语义分析（LSA）、选择嵌入维度、SVD计算复杂度、随机SVD用于大规模、解释SVD维度。（https://mbrenndoerfer.com/writing/singular-value-decomposition-lsa-word-embeddings）

第四部分：词嵌入

9章19 #### Skip-gram模型涵盖Skip-gram架构图、输入/输出表示、词汇表上的Softmax、Skip-gram目标函数、训练数据生成、窗口大小超参数、Skip-gram与CBOW直觉对比。（https://mbrenndoerfer.com/writing/skip-gram-model-word2vec-word-embeddings）
20 #### CBOW模型涵盖CBOW架构、上下文词平均、CBOW目标函数、CBOW与Skip-gram训练速度对比、CBOW对高频词的处理、实现CBOW前向传播、CBOW梯度推导。（https://mbrenndoerfer.com/writing/cbow-model-word2vec-word-embeddings）
21 #### 负采样涵盖Softmax计算瓶颈、负采样目标推导、采样分布（unigram^0.75）、负样本数量超参数、负采样梯度计算、NCE与负采样对比、实现高效采样。（https://mbrenndoerfer.com/writing/negative-sampling-word-embeddings）
22 #### 层次Softmax 涵盖二叉树构建（哈夫曼编码）、路径概率计算、层次Softmax目标、沿路径的梯度计算、树结构对学习的影响、层次Softmax与负采样对比、何时使用每种方法。（https://mbrenndoerfer.com/writing/hierarchical-softmax-word-embeddings）
23 #### Word2Vec训练涵盖数据预处理流水线、高频词子采样、学习率调度、小批量与在线训练、收敛监控、gensim Word2Vec使用、PyTorch从零训练。（https://mbrenndoerfer.com/writing/training-word2vec-pipeline-gensim-pytorch-implementation）
24 #### 词语类比涵盖类比向量运算、平行四边形模型、类比评估数据集、3CosAdd与3CosMul方法、类比准确率指标、类比评估局限、类比揭示的嵌入特性。（https://mbrenndoerfer.com/writing/word-analogy-vector-arithmetic-semantic-relationships）
25 #### GloVe 涵盖GloVe目标函数推导、加权最小二乘形式、与矩阵分解的关系、权重函数设计、GloVe中的偏置项、GloVe与Word2Vec对比、高效训练GloVe。（https://mbrenndoerfer.com/writing/glove-word-embeddings-co-occurrence-matrix-factorization）
26 #### FastText 涵盖字符n-gram表示、词向量作为n-gram之和、FastText架构、处理OOV词、形态学感知、FastText用于形态丰富语言、训练FastText模型。（https://mbrenndoerfer.com/writing/fasttext-subword-embeddings-character-ngrams）
27 #### 嵌入评估涵盖内在与外在评估、词语相似度数据集（SimLex, WordSim）、类比准确率、嵌入可视化（t-SNE, UMAP）、下游任务评估、嵌入偏差检测、评估陷阱。（https://mbrenndoerfer.com/writing/word-embedding-evaluation-intrinsic-extrinsic-methods）

第五部分：子词分词

8章28 #### 词汇问题涵盖OOV词问题、词汇表规模爆炸、罕见词表示、形态学生产能力、复合词、代码与技术文本、子词单元的优势论证。（https://mbrenndoerfer.com/writing/vocabulary-problem-subword-tokenization-challenges）
29 #### 字节对编码（BPE）涵盖BPE算法逐步讲解、合并规则学习、词汇表大小控制、BPE编码流程、BPE解码流程、从零实现BPE、BPE超参数。（https://mbrenndoerfer.com/writing/byte-pair-encoding-subword-tokenization-guide）
30 #### WordPiece 涵盖WordPiece与BPE的区别、合并的似然目标、贪婪分词算法、##前缀表示法、BERT中的WordPiece、训练WordPiece分词器、处理未知字符。（https://mbrenndoerfer.com/writing/wordpiece-tokenization-bert-subword-algorithm）
31 #### 一元语言模型分词涵盖一元语言模型形式化、EM算法训练、用于分词的维特比解码、多分割采样、子词正则化、一元与BPE对比、SentencePiece一元模式。（https://mbrenndoerfer.com/writing/unigram-language-model-tokenization）
32 #### SentencePiece 涵盖将文本视为原始字节、空白符处理（▁前缀）、BPE与一元模式、从原始文本训练、消除预分词、生产环境中的SentencePiece、多语言分词。（https://mbrenndoerfer.com/writing/sentencepiece-subword-tokenization-bpe-unigram）
33 #### 分词器训练涵盖语料库准备、词汇表大小选择、特殊标记配置、使用HuggingFace分词器训练、保存与加载分词器、分词器版本管理、领域特定分词器。（https://mbrenndoerfer.com/writing/tokenizer-training-guide-huggingface-custom-nlp）
34 #### 特殊标记涵盖[CLS]、[SEP]、[PAD]、[MASK]、[UNK]标记、序列起始/结束标记、自定义特殊标记、特殊标记嵌入、标记类型ID、生成中的特殊标记处理。（https://mbrenndoerfer.com/writing/special-tokens-transformers-cls-sep-pad-mask）
35 #### 分词挑战涵盖数字分词问题、代码分词、多语言文本混合、表情符号与Unicode边缘情况、分词伪影、对抗性分词、分词质量度量。（https://mbrenndoerfer.com/writing/tokenization-challenges-numbers-code-multilingual-unicode）

第六部分：序列标注

8章36 #### 词性标注涵盖词性标记集（宾州树库、通用）、作为分类问题的词性标注、上下文消歧、词性标注准确率指标、下游任务中的词性标注、基于规则与统计标注器。（https://mbrenndoerfer.com/writing/part-of-speech-tagging-nlp-guide）
37 #### 命名实体识别涵盖实体类型（PER、ORG、LOC等）、作为序列标注的NER、嵌套实体挑战、实体边界检测、NER评估（精确匹配与部分匹配）、NER数据集与基准。（https://mbrenndoerfer.com/writing/named-entity-recognition-ner-tutorial）
38 #### BIO标注涵盖BIO方案解释、BIOES/BILOU变体、将跨度转换为BIO标签、BIO解码为跨度、处理标注不一致、多标签场景下的BIO、实现BIO工具函数。（https://mbrenndoerfer.com/writing/bio-tagging-sequence-labeling-ner）
39 #### 组块分析涵盖名词短语组块、组块类型（NP, VP, PP）、组块的IOB标注、组块分析与完整句法分析对比、组块评估、作为预处理的组块、NLTK中的正则组块。（https://mbrenndoerfer.com/writing/chunking-shallow-parsing-nlp）
40 #### 隐马尔可夫模型涵盖HMM组件（状态、观测、转移）、发射与转移概率、HMM假设（马尔可夫、独立性）、HMM用于词性标注、HMM参数估计、HMM在NLP中的局限。（https://mbrenndoerfer.com/writing/hidden-markov-models-sequence-labeling-nlp）
41 #### 维特比算法涵盖最优路径问题形式化、维特比递归推导、回溯指针追踪、维特比复杂度分析、对数空间计算、高效实现维特比、维特比作为波束搜索基础。（https://mbrenndoerfer.com/writing/viterbi-algorithm-sequence-labeling）
42 #### 条件随机场涵盖CRF与HMM对比、CRF特征函数、对数线性形式、配分函数计算、CRF用于NER、CRF推理复杂度、神经CRF层。（https://mbrenndoerfer.com/writing/conditional-random-fields-sequence-labeling-nlp）
43 #### CRF训练涵盖CRF对数似然目标、前向-后向算法、梯度计算、L-BFGS优化、特征模板设计、CRF正则化、CRF训练收敛。（https://mbrenndoerfer.com/writing/crf-training-forward-backward-lbfgs-optimization）

第七部分：神经网络基础

13章44 #### 线性分类器涵盖线性决策边界、权重向量与偏置、点积解释、多类分类（softmax）、线性分类器局限、梯度下降训练。（https://mbrenndoerfer.com/writing/linear-classifiers-neural-network-foundations）
45 #### 激活函数涵盖Sigmoid函数与饱和、tanh性质、ReLU与死亡ReLU、Leaky ReLU与P

@777BHAVYA: 如果你想从头到尾研究LLM，从Vaswani时期的每个组件到现在的量化等...

语言AI手册

关于本书

追踪你的进度

目录

第一部分：文本即数据

第二部分：经典文本表示

第三部分：分布语义学

第四部分：词嵌入

第五部分：子词分词

第六部分：序列标注

第七部分：神经网络基础

相似文章

LLMs 101：实用指南（2026年版）

@learnx369：斯坦福大学的这9堂课是任何人想深入学习理解LLM的最佳选择，课程涵盖…

大语言模型与本地AI硬件的推理引擎（2026版）

逐步 LLM 工程项目 (2026 版)

@ickma2311: 高效AI讲座13：LLM部署技术该讲座帮助我很好地理解了AWQ、vLLM和FlashAttention…

提交意见反馈

语言AI手册

关于本书

追踪你的进度

目录

第一部分：文本即数据

第二部分：经典文本表示

第三部分：分布语义学

第四部分：词嵌入

第五部分：子词分词

第六部分：序列标注

第七部分：神经网络基础

相似文章

LLMs 101：实用指南（2026年版）

@learnx369：斯坦福大学的这9堂课是任何人想深入学习理解LLM的最佳选择，课程涵盖…

大语言模型与本地AI硬件的推理引擎（2026版）

逐步 LLM 工程项目 (2026 版)

@ickma2311: 高效AI讲座13：LLM部署技术 该讲座帮助我很好地理解了AWQ、vLLM和FlashAttention…

提交意见反馈

@ickma2311: 高效AI讲座13：LLM部署技术该讲座帮助我很好地理解了AWQ、vLLM和FlashAttention…