@NeoAIForecast: https://x.com/NeoAIForecast/status/2058479806048792583
摘要
关于本地LLM的完整教育系列,涵盖推理、tokens、权重以及系统级理解,适合初学者和参考。
查看缓存全文
缓存时间: 2026/05/24 14:32
本地大语言模型 101:完整文章系列
以下是过去几周的完整本地大语言模型 101 系列文章,按顺序排列。
如果你是新手,可以从头到尾通读。
如果你已了解部分内容,可将其作为参考。
希望其中一些能对你有所帮助。
00 - 本地大语言模型入门
如果你是本地AI领域的新手,请从这里开始。
本文解释了什么是本地大语言模型、它们为何重要,以及学习它们的最佳方式不是追逐模型名称,而是理解底层系统。
你将了解到:
- 什么是本地大语言模型
- 本地AI与云端AI有何不同
- 为什么本地模型对隐私、控制、离线使用和实验很重要
- 整个系列的初学者心智模型
- 为什么本地大语言模型最好被理解为系统,而非神奇的聊天框
阅读此处:00 - 本地大语言模型入门
Neo@NeoAIForecast·5月12日 文章00 - 本地大语言模型入门大部分人通过聊天框使用AI。 你输入消息 > 模型回答 > 感觉几乎是瞬间的。 但在表面之下,一些更有趣的事情正在发生。你的文本被拆分成…22273.9K
01 - 推理与序列
这是每个大语言模型的核心。
大语言模型不会一次性写出完整答案。它预测下一个词元,将该词元添加到序列中,然后再次预测。
这个重复的过程就是推理。
你将了解到:
- 推理的含义
- 为什么大语言模型使用序列工作
- 提示如何变成生成的输出
- 为什么生成过程一次只生成一个词元
- 为什么输出长度影响速度
- 为什么本地硬件在生成过程中很重要
阅读此处:01 - 推理与序列
Neo@NeoAIForecast·5月13日 文章01 - 推理与序列上一篇 00 - 本地大语言模型入门 大多数人认为大语言模型“写答案”。这并不准确。 语言模型做的是更简单、更奇特、也更强大的事情: 它…12122.3K
02 - 词元、分词器与上下文窗口
大语言模型读取文本的方式与人类并不完全相同。
它们读取词元。
一个词元可以是一个单词、单词的一部分、标点符号、空白、代码片段或特殊标记。分词器将你的文本转换为词元ID,而上下文窗口定义了模型可以主动使用的词元数量。
你将了解到:
- 什么是词元
- 为什么词元不总是单词
- 分词器的作用
- 为什么相同的文本在不同模型中分词结果不同
- 什么是上下文窗口
- 为什么长提示会拖慢本地模型
- 为什么模型似乎会“遗忘”较早的信息
阅读此处:02 - 词元、分词器与上下文窗口
Neo@NeoAIForecast·5月14日 文章02 - 词元、分词器与上下文窗口上一篇 01 - 推理与序列 大多数人认为大语言模型读取单词。 其实不是。 在本地模型能回答你之前,你的文本会被切分成更小的块,称为词元,并转换成…13303K
03 - 权重、参数与模型学到了什么
当人们说一个模型有 7B、14B、70B 或 405B 参数时,这实际上意味着什么?
本文解释了权重和参数是什么,但不假装它们是数据库中的简单事实。
你将了解到:
- 什么是参数
- 权重在模型内部的作用
- 训练如何调整权重
- 为什么模型知识以统计模式存储
- 为什么更大的模型可能有帮助,但不能保证更好的输出
- 为什么本地模型大小影响内存、速度和能力
阅读此处:03 - 权重、参数与模型学到了什么
Neo@NeoAIForecast·5月15日 文章03 - 权重、参数与模型学到了什么上一篇 - 02 - 词元、分词器与上下文窗口 语言模型不是一个事实数据库。 它没有一个整洁的小表格说: 巴黎 = 法国首都 Python =…3231K
04 - 模型实际包含什么
一个模型并不总是只有一个文件。
根据格式和运行时,一个可用的本地模型可能包括权重、架构配置、分词器文件、聊天模板、生成设置、特殊词元、元数据、许可证以及特定格式的打包结构。
你将了解到:
- 模型架构的含义
- 为什么权重只是模型包的一部分
- 为什么分词器文件很重要
- 配置文件描述了什么
- 聊天模板的作用
- 为什么许可证很重要
- GGUF 和 safetensors 等格式如何融入整体
阅读此处:04 - 模型实际包含什么
Neo@NeoAIForecast·5月16日 文章04 - 模型实际包含什么上一篇 - 03 - 权重、参数与模型学到了什么
当新手第一次下载本地大语言模型时,他们通常只关注一件事:
模型大小。
7B。
13B。
34B。
70B。
那个…1183K
05 - 生成、Softmax、贪婪和采样
为什么相同的提示会产生不同的答案?
因为模型并不直接“选择单词”。它产生下一个可能词元的得分。这些得分变成概率,而解码设置决定选择哪个词元。
你将了解到:
- logits 的高层概念
- softmax 如何将得分转化为概率
- 贪婪解码的作用
- 为什么采样会产生变化
- 温度如何改变随机性
- top-k 和 top-p 如何塑造词元选择
- 为什么生成设置影响风格,而非模型的底层知识
阅读此处:05 - 生成、Softmax、贪婪和采样
Neo@NeoAIForecast·5月17日 文章05 - 生成、Softmax、贪婪和采样上一篇 - 04 - 模型实际包含什么 大语言模型并不写答案。 本地大语言模型一次生成一个词元,通过反复问: “基于到目前为止的所有内容,下一个词元应该是什么?”…171K
06 - KV 缓存与会话记忆
KV 缓存是本地大语言模型中最常被误解的概念之一。
它通过存储先前词元的中间注意力信息,帮助模型高效地继续生成。
但它不是长期记忆。
你将了解到:
- KV 缓存存储了什么
- 为什么它能让生成更快
- 它与活跃上下文中先前词元的关系
- 为什么 KV 缓存不是学到的知识
- 为什么聊天历史、上下文、缓存和记忆是不同的事情
- 为什么模型无法可靠地使用活跃上下文之外的信息,除非有其他系统提供
阅读此处:06 - KV 缓存与会话记忆
Neo@NeoAIForecast·5月18日 文章06 - KV 缓存与会话记忆上一篇 - 05 - 生成、Softmax、贪婪和采样 本地大语言模型可以继续对话,因为运行时保持活跃上下文可用,并且 KV 缓存让…1111K
07 - Transformer:核心引擎
现代大多数大语言模型都基于 transformer 架构。
本文从高层次解释 transformer:它如何处理词元序列,通过层转换表示,以及使用注意力让词元相互影响。
你将了解到:
- 为什么 transformer 很重要
- 词元表示如何通过层移动
- 注意力的概念作用
- 为什么 transformer 能够很好地随数据和计算规模扩展
- 它们为何取代了许多较旧的序列建模方法
- transformer 如何驱动现代本地大语言模型
阅读此处:07 - Transformer:核心引擎
Neo@NeoAIForecast·5月19日 文章07 - Transformer:核心引擎上一篇 - 06 - KV 缓存与会话记忆 大语言模型不仅仅是神奇的文本框。 表面之下,现代语言模型由一种特定的神经网络架构驱动:…1121.5K
08 - Transformer 层与自注意力
自注意力是现代大语言模型背后的关键思想之一。
它让每个词元可以查看序列中的其他词元,并决定哪些关系重要。
这就是模型如何将代词与名称、函数与变量、问题与早期上下文、指令与它正在生成的答案联系起来的方式。
你将了解到:
- 什么是词元表示
- 自注意力如何让词元之间相互关联
- 为什么注意力权重很重要
- 层如何精炼表示
- 多头注意力的概念作用
- 为什么堆叠的层构建了更丰富的理解
阅读此处:08 - Transformer 层与自注意力
Neo@NeoAIForecast·5月20日 文章08 - Transformer 层与自注意力大多数人听到“注意力”时,会想象大语言模型像人类一样选择关注什么。
这种比喻足够接近以便有用,但不够精确以理解实际发生的事情。
在…21112.7K
09 - 从理论到运行本地模型
本文将整个系列与实际本地推理联系起来。
当你通过 llama.cpp、Ollama、LM Studio 或其他运行时运行 GGUF 模型时,前面文章中的所有部分都会整合在一起。
你将了解到:
- 运行时如何加载模型权重和配置
- 聊天模板如何格式化你的消息
- 分词器如何将文本转换为词元ID
- 上下文窗口如何设定活跃工作区
- 推理如何一次预测一个词元
- 采样如何选择输出词元
- KV 缓存如何加速连续生成
- 为什么硬件决定实际速度和内存限制
- GGUF、Ollama、LM Studio 和 llama.cpp 各自的位置
阅读此处:09 - 从理论到运行本地模型
Neo@NeoAIForecast·5月21日 文章09 - 从理论到运行本地模型本地大语言模型不会“醒来”然后开始聊天。
当你运行一个时,一整套部件会咔嚓一声结合在一起:模型文件、分词器、聊天模板、上下文窗口、推理运行时、采样…271K
请继续关注下一系列文章,我们将更深入地探索本地大语言模型的世界。
相似文章
LLMs 101:实用指南(2026年版)
一份关于LLMs的全面实用指南,涵盖推理机制、令牌、Transformer、KV缓存、本地部署硬件和量化,截至2026年5月。
@Tabbu_ai: https://x.com/Tabbu_ai/status/2058145123444347339
一篇教育性推文串,解释了理解和从头构建LLM架构的11个关键课程,涵盖token、嵌入、注意力、位置编码、数据质量和常见误解。
大语言模型与本地AI硬件的推理引擎(2026版)
本文提供了一份全面的指南,针对2026年本地AI硬件上的大语言模型推理引擎,解释了如何根据硬件策略、工作负载和服务模型进行选择,并涵盖了诸如llama.cpp、MLX、ExLlamaV2/3、vLLM、SGLang、TensorRT-LLM和NVIDIA Dynamo等引擎。
@0xSero:关于 LLM 推理与部署,看这一篇就够了。你听说过:- vLLM - SGLang - llama.cpp - …
vLLM、SGLang、llama.cpp 与 ExLlamaV3 等主流开源推理引擎概览,助你轻松托管并运行大模型。
@polydao: 这堂关于AI推理的斯坦福课程比大多数ML课程更能让你了解LLM在生产环境中的运作方式 > Clau…
一场关于AI推理的斯坦福讲座强调了KV-cache等实际瓶颈以及推测性解码和连续批处理等技术,比典型ML课程提供更多现实世界的洞察。