@686f6c61: 我已为好奇的人们更新了AI Workshop。新增约130张幻灯片，涵盖：经典机器学习应用、BFS/DF…

X AI KOLs Timeline 2026/05/16 20:26 工具

ai-workshop educational-resource machine-learning knowledge-graph agents classical-ai slides

摘要

更新了AI Workshop，新增超过130张幻灯片，涵盖经典机器学习、搜索算法、规划、知识图谱、智能体及实践实验，基于大学课程大纲。

我已为好奇的人们更新了AI Workshop。新增约130张幻灯片，涵盖：经典机器学习应用、BFS/DFS/A*搜索、SAT/CSP、规划/PDDL、游戏中的minimax/MCTS、RDF/OWL/SPARQL与本体、RAG与知识图谱对比、经典与现代智能体，以及可操作的实践实验。这些内容源自软件工程学位课程中“人工智能与知识工程”科目的教学大纲。包含更多公式、示例、参考资料……但面向所有人。尝试从基础开始讲解。 https://workshop-ia-2026.686f6c61.dev ** 如果你持续通过私信给我反馈，我会继续改进。上一次更新获得了28K次访问。谢谢。

查看原文

查看缓存全文

缓存时间: 2026/05/17 01:25

我已更新了面向好奇人群的 AI 工作坊。新增了大约 130 页幻灯片，内容涵盖：经典机器学习应用、BFS/DFS/A* 搜索、SAT/CSP、规划/PDDL、带有 minimax/MCTS 的游戏、RDF/OWL/SPARQL 和本体、RAG 与知识图谱对比、经典与现代 Agent，以及可动手实践的实验。这些内容来自《软件工程》专业的《人工智能与知识工程》课程大纲。包含了更多公式、示例、参考文献……但面向所有人。力求从零讲起。
https://workshop-ia-2026.686f6c61.dev
如果你持续通过私信给我反馈，我会继续改进。上次更新获得了 28K 次访问。谢谢。

面向好奇人群的 AI 工作坊

来源： https://workshop-ia-2026.686f6c61.dev/
Agent、模型与工具 – 作者：686f6c61
2026 年 5 月（更新日期：2026 年 5 月 26 日）

当日更新 · 2026 年 5 月 16 日
新增模块：经典 AI、机器学习、Agent、评估、运行、安全、实验以及 AI 用户体验。
使用键盘 ←→ 方向键或按钮导航。

01

基础

什么是（以及什么不是）人工智能，token、嵌入、训练和推理循环如何工作。

02

什么不是 AI？

**不是魔法也不是科幻。**机器内部没有“思维”。它是在服务器上运行的软件，依靠电力和硅。
**不是有意识的思维。**没有欲望、情感或意图。它“不想要”任何东西。处理 token 并计算概率。
**不是增强版的搜索引擎。**搜索引擎检索页面或文档。LLM（Large Language Model，大型语言模型）根据学到的模式生成文本，默认不查询外部来源。
**不像人类那样“思考”。**它可以输出看似推理的步骤，但其底层机制是根据学到的模式预测下一个 token。
**不是无懈可击或客观的。**可能产生幻觉（自信地生成虚假信息），继承训练数据中的偏见，并且缺乏对自身错误的可靠内省能力。

它不思考
没有认知过程。它计算 token 序列上的概率分布。
它没有意识
没有主观体验，没有自我意识，也没有世界模型。它是一个非常复杂的数学函数。
它不像人那样理解
学到的是 token 和概念的统计表示。它可以表现得像理解了，但没有经验或自己的判断。
它不是魔法
它是线性代数、矩阵运算和梯度优化。令人印象深刻，但可以解释。

关键思想
如果你理解 AI 不像人类那样思考、理解和推理，就能更好地使用它：你会给出更精确的指令，更少盲目地相信其回答。

03

什么是 AI？

大规模数学模型
拥有数十亿或数万亿参数调整过的神经网络，用于识别文本、图像、代码和音频中的模式。

大规模模式识别
人类需要数小时分析的内容，模型在几秒内处理完毕。它检测的是统计相关性，而不是“理解”。

下一个 token 的统计预测
给定一个 token 序列，预测下一个最可能的 token。重复数千次，便产生连贯的段落。

能力放大器
如果你会编程，它让你更快。如果你不会，它会给你一种它能正常工作的错觉……直到它失效。

现代 AI 的关键里程碑

日期	里程碑	为什么重要
2017	Transformer	架构“注意力就是全部”。后来一切的基础。
2020	GPT-3	1750 亿参数。证明规模化有效：更多数据 + 更多参数 = 更强能力。
2022	ChatGPT	RLHF（基于人类反馈的强化学习）+ 聊天界面。AI 变得对公众可访问。
2023	GPT-4	多模态和高级推理。能力质的飞跃。
2024	Claude 3 / Gemini	真正的竞争。支持 200K+ token 上下文。AI 成为日常工具。
2025-26	Agent 时代	AI 执行完整任务：浏览、编程、部署。Claude Code、Devin、自主 Agent。

关键思想
AI 不能替代人类判断。它放大判断力。如果你提供清晰的上下文和精确的约束，结果令人印象深刻。如果你提供模糊信息，结果不可预测。

04

什么是确定性系统，为什么 AI 不是？

确定性系统
相同输入 → 始终相同输出。编译器、SQL 查询、纯函数。作为程序员，我们习惯于这样思考：f(x) = y，永远不变。

function sumar(a, b) {
  return a + b;
}

随机系统（AI）
相同输入 → 可能不同的输出。模型可以从概率分布中采样。每次执行可能根据配置和基础设施给出不同结果。

prompt: "解释什么是 Rust"

为什么会出现这种情况？
模型不会返回“正确回答”。它计算所有可能 token 的概率分布，然后 从中采样。参数 temperature、top-p 和 top-k 控制允许的随机程度。设置为 temperature=0 时接近确定性，但无法保证（数值精度和批处理会导致变化）。

从提示到 token：生成流程
输入文本 → 分词 → 概率分布 → 采样（temperature、top-p、top-k） → 选中的 token

实际后果
不能只用期望返回一个精确句子的单元测试。思维方式需要改变：从“返回 X”变成“在合理范围内返回合理内容”。策略：评估（evals）、结构验证、对属性而非精确值的断言。

与第 27 张幻灯片的关联
参数 temperature、top-p 和 top-k 将在配置参数幻灯片中详细说明。在那里你会看到如何根据用例调整它们。

05

AI 原理

监督学习
提供带标签的示例（输入 → 期望输出），模型学会泛化。这是微调的基础。

无监督学习
模型在未标记数据中找到模式。LLM 就是这样预训练的：在大规模文本中预测下一个单词。

基于偏好和强化的后训练
RLHF = 基于人类反馈的强化学习。这是一种后训练技术：人类对回答评分或比较，该信号帮助对齐模型。并非唯一方法：还有 SFT、DPO、RLAIF、RFT 和可验证强化。

注意力（Transformer）
改变一切的机制。允许模型同时查看输入中的所有单词，并决定每个预测哪些单词相关。

缩放定律
更多数据 + 更多参数 + 更多计算 = 更强模型。这不是魔法：这是一个可预测的关系（Kaplan et al., 2020）。解释了为什么行业在 GPU 集群上投入数十亿美元。

06

人工神经元

一切从这里开始。人工神经元是一个 数学函数，它接收数字，乘以权重，加上偏置，然后应用激活函数。

代码实现

function neurona(inputs, weights, bias) {
  const sum = inputs.reduce((acc, x, i) => acc + x * weights[i], 0);
  return activation(sum + bias);
}
neurona([0.5, 0.3, 0.8], [0.2, -0.4, 0.7], 0.1);

激活函数

函数	公式	使用场景
ReLU	`max(0, x)`	隐藏层。因其简单高效最常用。
Sigmoid	`1 / (1 + e^-x)`	输出在 0 到 1 之间。二分类。
Softmax	归一化为概率	最后一层。类上的概率分布。
Tanh	`(e^x - e^-x) / (e^x + e^-x)`	输出在 -1 到 1 之间。用于 RNN/LSTM。

为好奇者说明
一个神经元是一个带有学习参数（权重和偏置）的纯函数。“智能”不在单个神经元中：而在于训练期间调整的 数十亿参数。在 Claude 或 GPT 等专有模型中，提供商通常不会公布确切的权重数量。

07

神经网络：层与架构

神经网络是一个 按层组织的神经元图。每一层转换数据并传递给下一层。

网络结构（MLP）
输入层（你的数据） → 隐藏层 1（简单模式） → 隐藏层 2（复杂模式） → 输出层（预测）

每层学习什么？

浅层
检测简单模式：边缘、颜色、频率。在文本中：n-gram、句法模式。
中层
将简单模式组合成概念：形状、纹理、词语之间的关系。
深层
高层抽象：完整对象、语义含义、推理。

“深度”学习 = 许多层
2-3 层的网络是“浅层”的。数十或数百层是“深层”的。在专有模型中，如果提供商未公布层数，则正确做法是标记为未公布而非声称数据。更多层通常带来更强的抽象能力，但会增加延迟、内存和训练难度。

08

网络如何学习：反向传播

训练是一个循环：预测、测量误差、调整权重、重复。数十亿次。

训练循环

前向传播（数据 → 预测） → 2. 计算损失（预测 vs 真实值） → 3. 反向传播（计算梯度） → 4. 更新权重（梯度下降）↻

伪代码

for epoch in range(num_epochs):
  for batch in dataloader:
    prediction = model.forward(batch.input)
    loss = loss_fn(prediction, batch.target)
    loss.backward()
    optimizer.step()
    optimizer.zero_grad()

类比：在雾中下山
想象你在雾中的山上，想到达山谷（损失函数的最小值）。你看不到路，但能感觉到脚下的坡度。每一步，你朝下降最快的方向前进（梯度）。学习率 是步长：太大会越过大谷，太小则永远走不到。

09

损失函数与优化器

损失函数衡量模型犯错的多少。优化器决定如何调整权重来减少误差。

主要损失函数

函数	使用场景	衡量什么
交叉熵	分类、LLM	预测分布与真实分布之间的差异。LLM 使用的损失函数：衡量预测 token 是否正确
MSE	回归	误差平方的均值。用于预测数值。
对比损失	嵌入	在向量空间中拉近相似样本，推远离散样本。

优化器

优化器	关键思想	用途
SGD	使用小批量的梯度下降	简单，调参后效果不错。
Adam	每参数自适应学习率	最常用。“开箱即用”效果好。
AdamW	Adam + 正确的权重衰减	训练 LLM 和 Transformer 的标准选择。

常见训练问题

过拟合
模型记忆训练数据但对新数据表现差。解决方案：dropout、正则化、更多数据。

梯度消失
梯度变得非常小，深层网络学不到东西。解决方案：ReLU、跳跃连接、归一化。

10

CNN：用于视觉的卷积神经网络

卷积神经网络 彻底改变了计算机视觉。它不是逐个像素地查看，而是应用 滤波器 来检测局部模式。

CNN 的流程
图像（像素） → 卷积（滤波器） → 池化（缩小） → 更多卷积+池化 → 分类

关键概念

卷积
一个小的滤波器（3x3、5x5）在图像上滑动。检测局部模式：水平边缘、角点、纹理。多个滤波器检测多个模式。

池化
降低分辨率同时保留重要信息。最大池化：取每个区域的最大值。使网络对微小偏移具有不变性。

特征图
每个卷积层的输出。浅层：边缘和颜色。深层：眼睛、轮子、字母。网络“学习”哪些模式是相关的。

跳跃连接（ResNet）
允许信息跳过层的捷径。解决了训练超深网络（100+ 层）的问题。2015 年的关键创新。

当前相关性
CNN 仍然是计算机视觉的基础（物体检测、分割）。Vision Transformer（ViT）在某些任务上正在取代它们，但 CNN 在边缘/移动设备上由于效率而占主导地位。Stable Diffusion 使用 U-Net（基于 CNN）进行降噪。

11

RNN 与 LSTM：用于序列的网络

在 Transformer 之前，循环神经网络 是处理序列（文本、音频、时间序列）的方式。理解它们能解释为什么 Transformer 是革命性的。

RNN 的工作原理
Token 1 → RNN（隐藏状态） → Token 2 + 状态 → RNN（更新状态） → Token 3 + 状态……
一次处理一个 token，维持一个“隐藏状态”来总结之前看到的所有内容。问题：当到达第 500 个 token 时，它已经“忘记”了第 1 个 token。

RNN vs LSTM vs Transformer

特性	RNN	LSTM	Transformer
处理方式	顺序	顺序	并行
记忆	短期	长期（门控）	整个序列
最大上下文	~100 token	~500 token	128K–1M+ token
可并行化	否	否	是（GPU）
速度	慢	慢	快

为什么 Transformer 赢了？
两个原因：(1) 并行性：同时查看所有 token，充分利用大规模并行 GPU。(2) 注意力：不是将一切都压缩到固定的隐藏状态中，每个 token 可以直接“查看”序列中的任何其他 token。更多细节见 Transformer 幻灯片。

12

什么是 token？

Token 是模型处理的 离散单元。根据分词器和词汇表，可以是一个词、词的一部分、一个字符甚至字节。

分词示例
“Hola mundo” → [“Hola”, “ mundo“]
“desarrolladores” → [“des”, “arrol”, “ladores”]
“function getName()” → [“function”, “ get“, “Name”, “()”]

单词 vs Token
作为非常粗略的估计，1 个 token 在拉丁文本中大约相当于 3-4 个字符。语言、符号、代码和分词器会很大程度改变结果。

短语	单词数	Token 数（约）	比例
“Hello world”	2	2	1:1
“Hola mundo”	2	2-3	~1:1.25
“Machine learning is great”	4	4	1:1
“El aprendizaje automático es genial”	5	7-8	1:1.5
`const getData = async () => {}`	7	10-12	1:1.6

在西班牙语中，通常比英语消耗更多 token 来表达相同内容，尽管比例取决于分词器和文本。
模型看到的不是文本： 它是数字序列（token ID）。每个 token 在模型词汇表中都有唯一的 ID。
一切以 token 衡量： 上下文窗口、API 价格、回答限制。它是 AI 的“货币”。
快速规则： 1 个 token 通常少于一个单词；仅作为初步估计使用。

13

什么是嵌入？

嵌入是一种 数值表示，用于单词、短语、图像、代码或文档。它将内容转换为由数百或数千个数字组成的向量，以便比较语义接近度。

什么是维度？
嵌入向量有数百或数千个分量。维度通常没有清晰的人类标签；重要的是向量的全局位置及其与其它向量的距离。

“gato” → [ 0.23, -0.87, 0.45, 0.12, … ]
“felino” → [ 0.21, -0.85, 0.48, 0.11, … ]
“JavaScript” → [ -0.56, 0.33, -0.12, 0.78, … ]

更多维度 = 更多细微差别
更多维度有更强的能力来区分细微差异，但也需要更多数据来有效学习。维度数通常由模型的设计者选择，是模型配置中的超参数。

相似文章

@shedoesai: 如何在不浪费1000多小时的情况下精通AI。没有无用的教程。没有虚假的AI大师。没有信息过载…

X AI KOLs Timeline

精选的AI学习栈，涵盖LLM、智能体、MCP、提示工程、RAG和向量数据库，包含视频、仓库、指南、书籍、论文和课程。同时提供了关于大型语言模型是什么以及它们如何工作的易懂解释。

@FakeMaidenMaker: AI 工程师全栈路线：带你从零基础开始从数学到大模型到 Agent 全部搞懂网上 AI 资料一堆，但都是碎片——这里一篇微调、那里一个 agent demo、随便一搜全是"5 分钟搭一个 RAG"的快餐，真正从数学到 LLM 到 age…

X AI KOLs Timeline

A free, open-source AI engineering curriculum that covers math, LLMs, and agents across 20 phases and 435 lessons in Python, TypeScript, Rust, and Julia, designed to fill gaps in fragmented AI tutorials.

@686f6c61: 我已为好奇的人们更新了AI Workshop。新增约130张幻灯片，涵盖：经典机器学习应用、BFS/DF…

面向好奇人群的 AI 工作坊

01

基础

02

什么不是 AI？

03

什么是 AI？

现代 AI 的关键里程碑

04

什么是确定性系统，为什么 AI 不是？

05

AI 原理

06

人工神经元

07

神经网络：层与架构

08

网络如何学习：反向传播

09

损失函数与优化器

10

CNN：用于视觉的卷积神经网络

11

RNN 与 LSTM：用于序列的网络

12

什么是 token？

13

什么是嵌入？

相似文章

@shedoesai: 如何在不浪费1000多小时的情况下精通AI。没有无用的教程。没有虚假的AI大师。没有信息过载…

@FakeMaidenMaker: AI 工程师全栈路线：带你从零基础开始从数学到大模型到 Agent 全部搞懂网上 AI 资料一堆，但都是碎片——这里一篇微调、那里一个 agent demo、随便一搜全是"5 分钟搭一个 RAG"的快餐，真正从数学到 LLM 到 age…

@dwarkesh_sp: 与 @ericjang11 的新黑板讲座：他演示了如何用现代AI工具从头构建AlphaGo。一些…

@pauliusztin_: 我们刚刚开源了完整的 @aiDotEngineer 研讨会！你可以克隆它并自行运行所有内容... → https://github…

owainlewis/awesome-artificial-intelligence

提交意见反馈

面向好奇人群的 AI 工作坊

01

基础

02

什么不是 AI？

03

什么是 AI？

现代 AI 的关键里程碑

04

什么是确定性系统，为什么 AI 不是？

05

AI 原理

06

人工神经元

07

神经网络：层与架构

08

网络如何学习：反向传播

09

损失函数与优化器

10

CNN：用于视觉的卷积神经网络

11

RNN 与 LSTM：用于序列的网络

12

什么是 token？

13

什么是嵌入？

相似文章

@shedoesai: 如何在不浪费1000多小时的情况下精通AI。没有无用的教程。没有虚假的AI大师。没有信息过载…

@FakeMaidenMaker: AI 工程师全栈路线：带你从零基础开始从数学到大模型到 Agent 全部搞懂 网上 AI 资料一堆，但都是碎片——这里一篇微调、那里一个 agent demo、随便一搜全是"5 分钟搭一个 RAG"的快餐，真正从数学到 LLM 到 age…

@dwarkesh_sp: 与 @ericjang11 的新黑板讲座：他演示了如何用现代AI工具从头构建AlphaGo。一些…

@pauliusztin_: 我们刚刚开源了完整的 @aiDotEngineer 研讨会！你可以克隆它并自行运行所有内容... → https://github…

owainlewis/awesome-artificial-intelligence

提交意见反馈

@FakeMaidenMaker: AI 工程师全栈路线：带你从零基础开始从数学到大模型到 Agent 全部搞懂网上 AI 资料一堆，但都是碎片——这里一篇微调、那里一个 agent demo、随便一搜全是"5 分钟搭一个 RAG"的快餐，真正从数学到 LLM 到 age…