@NeoAIForecast: https://x.com/NeoAIForecast/status/2058479806048792583

X AI KOLs Timeline 工具

摘要

关于本地LLM的完整教育系列,涵盖推理、tokens、权重以及系统级理解,适合初学者和参考。

https://t.co/zCOJ02KLNL
查看原文
查看缓存全文

缓存时间: 2026/05/24 14:32

本地大语言模型 101:完整文章系列

以下是过去几周的完整本地大语言模型 101 系列文章,按顺序排列。

如果你是新手,可以从头到尾通读。

如果你已了解部分内容,可将其作为参考。

希望其中一些能对你有所帮助。

00 - 本地大语言模型入门

如果你是本地AI领域的新手,请从这里开始。

本文解释了什么是本地大语言模型、它们为何重要,以及学习它们的最佳方式不是追逐模型名称,而是理解底层系统。

你将了解到:

  • 什么是本地大语言模型
  • 本地AI与云端AI有何不同
  • 为什么本地模型对隐私、控制、离线使用和实验很重要
  • 整个系列的初学者心智模型
  • 为什么本地大语言模型最好被理解为系统,而非神奇的聊天框

阅读此处:00 - 本地大语言模型入门

Neo@NeoAIForecast·5月12日 文章00 - 本地大语言模型入门大部分人通过聊天框使用AI。 你输入消息 > 模型回答 > 感觉几乎是瞬间的。 但在表面之下,一些更有趣的事情正在发生。你的文本被拆分成…22273.9K

01 - 推理与序列

这是每个大语言模型的核心。

大语言模型不会一次性写出完整答案。它预测下一个词元,将该词元添加到序列中,然后再次预测。

这个重复的过程就是推理。

你将了解到:

  • 推理的含义
  • 为什么大语言模型使用序列工作
  • 提示如何变成生成的输出
  • 为什么生成过程一次只生成一个词元
  • 为什么输出长度影响速度
  • 为什么本地硬件在生成过程中很重要

阅读此处:01 - 推理与序列

Neo@NeoAIForecast·5月13日 文章01 - 推理与序列上一篇 00 - 本地大语言模型入门 大多数人认为大语言模型“写答案”。这并不准确。 语言模型做的是更简单、更奇特、也更强大的事情: 它…12122.3K

02 - 词元、分词器与上下文窗口

大语言模型读取文本的方式与人类并不完全相同。

它们读取词元。

一个词元可以是一个单词、单词的一部分、标点符号、空白、代码片段或特殊标记。分词器将你的文本转换为词元ID,而上下文窗口定义了模型可以主动使用的词元数量。

你将了解到:

  • 什么是词元
  • 为什么词元不总是单词
  • 分词器的作用
  • 为什么相同的文本在不同模型中分词结果不同
  • 什么是上下文窗口
  • 为什么长提示会拖慢本地模型
  • 为什么模型似乎会“遗忘”较早的信息

阅读此处:02 - 词元、分词器与上下文窗口

Neo@NeoAIForecast·5月14日 文章02 - 词元、分词器与上下文窗口上一篇 01 - 推理与序列 大多数人认为大语言模型读取单词。 其实不是。 在本地模型能回答你之前,你的文本会被切分成更小的块,称为词元,并转换成…13303K

03 - 权重、参数与模型学到了什么

当人们说一个模型有 7B、14B、70B 或 405B 参数时,这实际上意味着什么?

本文解释了权重和参数是什么,但不假装它们是数据库中的简单事实。

你将了解到:

  • 什么是参数
  • 权重在模型内部的作用
  • 训练如何调整权重
  • 为什么模型知识以统计模式存储
  • 为什么更大的模型可能有帮助,但不能保证更好的输出
  • 为什么本地模型大小影响内存、速度和能力

阅读此处:03 - 权重、参数与模型学到了什么

Neo@NeoAIForecast·5月15日 文章03 - 权重、参数与模型学到了什么上一篇 - 02 - 词元、分词器与上下文窗口 语言模型不是一个事实数据库。 它没有一个整洁的小表格说: 巴黎 = 法国首都 Python =…3231K

04 - 模型实际包含什么

一个模型并不总是只有一个文件。

根据格式和运行时,一个可用的本地模型可能包括权重、架构配置、分词器文件、聊天模板、生成设置、特殊词元、元数据、许可证以及特定格式的打包结构。

你将了解到:

  • 模型架构的含义
  • 为什么权重只是模型包的一部分
  • 为什么分词器文件很重要
  • 配置文件描述了什么
  • 聊天模板的作用
  • 为什么许可证很重要
  • GGUF 和 safetensors 等格式如何融入整体

阅读此处:04 - 模型实际包含什么

Neo@NeoAIForecast·5月16日 文章04 - 模型实际包含什么上一篇 - 03 - 权重、参数与模型学到了什么 当新手第一次下载本地大语言模型时,他们通常只关注一件事: 模型大小。 7B。
13B。
34B。
70B。
那个…1183K

05 - 生成、Softmax、贪婪和采样

为什么相同的提示会产生不同的答案?

因为模型并不直接“选择单词”。它产生下一个可能词元的得分。这些得分变成概率,而解码设置决定选择哪个词元。

你将了解到:

  • logits 的高层概念
  • softmax 如何将得分转化为概率
  • 贪婪解码的作用
  • 为什么采样会产生变化
  • 温度如何改变随机性
  • top-k 和 top-p 如何塑造词元选择
  • 为什么生成设置影响风格,而非模型的底层知识

阅读此处:05 - 生成、Softmax、贪婪和采样

Neo@NeoAIForecast·5月17日 文章05 - 生成、Softmax、贪婪和采样上一篇 - 04 - 模型实际包含什么 大语言模型并不写答案。 本地大语言模型一次生成一个词元,通过反复问: “基于到目前为止的所有内容,下一个词元应该是什么?”…171K

06 - KV 缓存与会话记忆

KV 缓存是本地大语言模型中最常被误解的概念之一。

它通过存储先前词元的中间注意力信息,帮助模型高效地继续生成。

但它不是长期记忆。

你将了解到:

  • KV 缓存存储了什么
  • 为什么它能让生成更快
  • 它与活跃上下文中先前词元的关系
  • 为什么 KV 缓存不是学到的知识
  • 为什么聊天历史、上下文、缓存和记忆是不同的事情
  • 为什么模型无法可靠地使用活跃上下文之外的信息,除非有其他系统提供

阅读此处:06 - KV 缓存与会话记忆

Neo@NeoAIForecast·5月18日 文章06 - KV 缓存与会话记忆上一篇 - 05 - 生成、Softmax、贪婪和采样 本地大语言模型可以继续对话,因为运行时保持活跃上下文可用,并且 KV 缓存让…1111K

07 - Transformer:核心引擎

现代大多数大语言模型都基于 transformer 架构。

本文从高层次解释 transformer:它如何处理词元序列,通过层转换表示,以及使用注意力让词元相互影响。

你将了解到:

  • 为什么 transformer 很重要
  • 词元表示如何通过层移动
  • 注意力的概念作用
  • 为什么 transformer 能够很好地随数据和计算规模扩展
  • 它们为何取代了许多较旧的序列建模方法
  • transformer 如何驱动现代本地大语言模型

阅读此处:07 - Transformer:核心引擎

Neo@NeoAIForecast·5月19日 文章07 - Transformer:核心引擎上一篇 - 06 - KV 缓存与会话记忆 大语言模型不仅仅是神奇的文本框。 表面之下,现代语言模型由一种特定的神经网络架构驱动:…1121.5K

08 - Transformer 层与自注意力

自注意力是现代大语言模型背后的关键思想之一。

它让每个词元可以查看序列中的其他词元,并决定哪些关系重要。

这就是模型如何将代词与名称、函数与变量、问题与早期上下文、指令与它正在生成的答案联系起来的方式。

你将了解到:

  • 什么是词元表示
  • 自注意力如何让词元之间相互关联
  • 为什么注意力权重很重要
  • 层如何精炼表示
  • 多头注意力的概念作用
  • 为什么堆叠的层构建了更丰富的理解

阅读此处:08 - Transformer 层与自注意力

Neo@NeoAIForecast·5月20日 文章08 - Transformer 层与自注意力大多数人听到“注意力”时,会想象大语言模型像人类一样选择关注什么。

这种比喻足够接近以便有用,但不够精确以理解实际发生的事情。

在…21112.7K

09 - 从理论到运行本地模型

本文将整个系列与实际本地推理联系起来。

当你通过 llama.cpp、Ollama、LM Studio 或其他运行时运行 GGUF 模型时,前面文章中的所有部分都会整合在一起。

你将了解到:

  • 运行时如何加载模型权重和配置
  • 聊天模板如何格式化你的消息
  • 分词器如何将文本转换为词元ID
  • 上下文窗口如何设定活跃工作区
  • 推理如何一次预测一个词元
  • 采样如何选择输出词元
  • KV 缓存如何加速连续生成
  • 为什么硬件决定实际速度和内存限制
  • GGUF、Ollama、LM Studio 和 llama.cpp 各自的位置

阅读此处:09 - 从理论到运行本地模型

Neo@NeoAIForecast·5月21日 文章09 - 从理论到运行本地模型本地大语言模型不会“醒来”然后开始聊天。

当你运行一个时,一整套部件会咔嚓一声结合在一起:模型文件、分词器、聊天模板、上下文窗口、推理运行时、采样…271K

请继续关注下一系列文章,我们将更深入地探索本地大语言模型的世界。

相似文章

LLMs 101:实用指南(2026年版)

X AI KOLs

一份关于LLMs的全面实用指南,涵盖推理机制、令牌、Transformer、KV缓存、本地部署硬件和量化,截至2026年5月。

大语言模型与本地AI硬件的推理引擎(2026版)

X AI KOLs

本文提供了一份全面的指南,针对2026年本地AI硬件上的大语言模型推理引擎,解释了如何根据硬件策略、工作负载和服务模型进行选择,并涵盖了诸如llama.cpp、MLX、ExLlamaV2/3、vLLM、SGLang、TensorRT-LLM和NVIDIA Dynamo等引擎。