@686f6c61: 我已为好奇的人们更新了AI Workshop。新增约130张幻灯片,涵盖:经典机器学习应用、BFS/DF…
摘要
更新了AI Workshop,新增超过130张幻灯片,涵盖经典机器学习、搜索算法、规划、知识图谱、智能体及实践实验,基于大学课程大纲。
查看缓存全文
缓存时间: 2026/05/17 01:25
我已更新了面向好奇人群的 AI 工作坊。新增了大约 130 页幻灯片,内容涵盖:经典机器学习应用、BFS/DFS/A* 搜索、SAT/CSP、规划/PDDL、带有 minimax/MCTS 的游戏、RDF/OWL/SPARQL 和本体、RAG 与知识图谱对比、经典与现代 Agent,以及可动手实践的实验。这些内容来自《软件工程》专业的《人工智能与知识工程》课程大纲。包含了更多公式、示例、参考文献……但面向所有人。力求从零讲起。
https://workshop-ia-2026.686f6c61.dev
如果你持续通过私信给我反馈,我会继续改进。上次更新获得了 28K 次访问。谢谢。
面向好奇人群的 AI 工作坊
来源: https://workshop-ia-2026.686f6c61.dev/
Agent、模型与工具 – 作者:686f6c61
2026 年 5 月(更新日期:2026 年 5 月 26 日)
当日更新 · 2026 年 5 月 16 日
新增模块:经典 AI、机器学习、Agent、评估、运行、安全、实验以及 AI 用户体验。
使用键盘 ←→ 方向键或按钮导航。
01
基础
什么是(以及什么不是)人工智能,token、嵌入、训练和推理循环如何工作。
02
什么不是 AI?
- **不是魔法也不是科幻。**机器内部没有“思维”。它是在服务器上运行的软件,依靠电力和硅。
- **不是有意识的思维。**没有欲望、情感或意图。它“不想要”任何东西。处理 token 并计算概率。
- **不是增强版的搜索引擎。**搜索引擎检索页面或文档。LLM(Large Language Model,大型语言模型)根据学到的模式生成文本,默认不查询外部来源。
- **不像人类那样“思考”。**它可以输出看似推理的步骤,但其底层机制是根据学到的模式预测下一个 token。
- **不是无懈可击或客观的。**可能产生幻觉(自信地生成虚假信息),继承训练数据中的偏见,并且缺乏对自身错误的可靠内省能力。
它不思考
没有认知过程。它计算 token 序列上的概率分布。
它没有意识
没有主观体验,没有自我意识,也没有世界模型。它是一个非常复杂的数学函数。
它不像人那样理解
学到的是 token 和概念的统计表示。它可以表现得像理解了,但没有经验或自己的判断。
它不是魔法
它是线性代数、矩阵运算和梯度优化。令人印象深刻,但可以解释。
关键思想
如果你理解 AI 不像人类那样思考、理解和推理,就能更好地使用它:你会给出更精确的指令,更少盲目地相信其回答。
03
什么是 AI?
大规模数学模型
拥有数十亿或数万亿参数调整过的神经网络,用于识别文本、图像、代码和音频中的模式。
大规模模式识别
人类需要数小时分析的内容,模型在几秒内处理完毕。它检测的是统计相关性,而不是“理解”。
下一个 token 的统计预测
给定一个 token 序列,预测下一个最可能的 token。重复数千次,便产生连贯的段落。
能力放大器
如果你会编程,它让你更快。如果你不会,它会给你一种它能正常工作的错觉……直到它失效。
现代 AI 的关键里程碑
| 日期 | 里程碑 | 为什么重要 |
|---|---|---|
| 2017 | Transformer | 架构“注意力就是全部”。后来一切的基础。 |
| 2020 | GPT-3 | 1750 亿参数。证明规模化有效:更多数据 + 更多参数 = 更强能力。 |
| 2022 | ChatGPT | RLHF(基于人类反馈的强化学习)+ 聊天界面。AI 变得对公众可访问。 |
| 2023 | GPT-4 | 多模态和高级推理。能力质的飞跃。 |
| 2024 | Claude 3 / Gemini | 真正的竞争。支持 200K+ token 上下文。AI 成为日常工具。 |
| 2025-26 | Agent 时代 | AI 执行完整任务:浏览、编程、部署。Claude Code、Devin、自主 Agent。 |
关键思想
AI 不能替代人类判断。它放大判断力。如果你提供清晰的上下文和精确的约束,结果令人印象深刻。如果你提供模糊信息,结果不可预测。
04
什么是确定性系统,为什么 AI 不是?
确定性系统
相同输入 → 始终相同输出。编译器、SQL 查询、纯函数。作为程序员,我们习惯于这样思考:f(x) = y,永远不变。
function sumar(a, b) {
return a + b;
}
随机系统(AI)
相同输入 → 可能不同的输出。模型可以从概率分布中采样。每次执行可能根据配置和基础设施给出不同结果。
prompt: "解释什么是 Rust"
为什么会出现这种情况?
模型不会返回“正确回答”。它计算所有可能 token 的概率分布,然后 从中采样。参数 temperature、top-p 和 top-k 控制允许的随机程度。设置为 temperature=0 时接近确定性,但无法保证(数值精度和批处理会导致变化)。
从提示到 token:生成流程
输入文本 → 分词 → 概率分布 → 采样(temperature、top-p、top-k) → 选中的 token
实际后果
不能只用期望返回一个精确句子的单元测试。思维方式需要改变:从“返回 X”变成“在合理范围内返回合理内容”。策略:评估(evals)、结构验证、对属性而非精确值的断言。
与第 27 张幻灯片的关联
参数 temperature、top-p 和 top-k 将在配置参数幻灯片中详细说明。在那里你会看到如何根据用例调整它们。
05
AI 原理
监督学习
提供带标签的示例(输入 → 期望输出),模型学会泛化。这是微调的基础。
无监督学习
模型在未标记数据中找到模式。LLM 就是这样预训练的:在大规模文本中预测下一个单词。
基于偏好和强化的后训练
RLHF = 基于人类反馈的强化学习。这是一种后训练技术:人类对回答评分或比较,该信号帮助对齐模型。并非唯一方法:还有 SFT、DPO、RLAIF、RFT 和可验证强化。
注意力(Transformer)
改变一切的机制。允许模型同时查看输入中的所有单词,并决定每个预测哪些单词相关。
缩放定律
更多数据 + 更多参数 + 更多计算 = 更强模型。这不是魔法:这是一个可预测的关系(Kaplan et al., 2020)。解释了为什么行业在 GPU 集群上投入数十亿美元。
06
人工神经元
一切从这里开始。人工神经元是一个 数学函数,它接收数字,乘以权重,加上偏置,然后应用激活函数。
代码实现
function neurona(inputs, weights, bias) {
const sum = inputs.reduce((acc, x, i) => acc + x * weights[i], 0);
return activation(sum + bias);
}
neurona([0.5, 0.3, 0.8], [0.2, -0.4, 0.7], 0.1);
激活函数
| 函数 | 公式 | 使用场景 |
|---|---|---|
| ReLU | max(0, x) | 隐藏层。因其简单高效最常用。 |
| Sigmoid | 1 / (1 + e^-x) | 输出在 0 到 1 之间。二分类。 |
| Softmax | 归一化为概率 | 最后一层。类上的概率分布。 |
| Tanh | (e^x - e^-x) / (e^x + e^-x) | 输出在 -1 到 1 之间。用于 RNN/LSTM。 |
为好奇者说明
一个神经元是一个带有学习参数(权重和偏置)的纯函数。“智能”不在单个神经元中:而在于训练期间调整的 数十亿参数。在 Claude 或 GPT 等专有模型中,提供商通常不会公布确切的权重数量。
07
神经网络:层与架构
神经网络是一个 按层组织的神经元图。每一层转换数据并传递给下一层。
网络结构(MLP)
输入层(你的数据) → 隐藏层 1(简单模式) → 隐藏层 2(复杂模式) → 输出层(预测)
每层学习什么?
浅层
检测简单模式:边缘、颜色、频率。在文本中:n-gram、句法模式。
中层
将简单模式组合成概念:形状、纹理、词语之间的关系。
深层
高层抽象:完整对象、语义含义、推理。
“深度”学习 = 许多层
2-3 层的网络是“浅层”的。数十或数百层是“深层”的。在专有模型中,如果提供商未公布层数,则正确做法是标记为未公布而非声称数据。更多层通常带来更强的抽象能力,但会增加延迟、内存和训练难度。
08
网络如何学习:反向传播
训练是一个 循环:预测、测量误差、调整权重、重复。数十亿次。
训练循环
- 前向传播(数据 → 预测) → 2. 计算损失(预测 vs 真实值) → 3. 反向传播(计算梯度) → 4. 更新权重(梯度下降)↻
伪代码
for epoch in range(num_epochs):
for batch in dataloader:
prediction = model.forward(batch.input)
loss = loss_fn(prediction, batch.target)
loss.backward()
optimizer.step()
optimizer.zero_grad()
类比:在雾中下山
想象你在雾中的山上,想到达山谷(损失函数的最小值)。你看不到路,但能感觉到脚下的坡度。每一步,你朝下降最快的方向前进(梯度)。学习率 是步长:太大会越过大谷,太小则永远走不到。
09
损失函数与优化器
损失函数衡量模型犯错的多少。优化器决定如何调整权重来减少误差。
主要损失函数
| 函数 | 使用场景 | 衡量什么 |
|---|---|---|
| 交叉熵 | 分类、LLM | 预测分布与真实分布之间的差异。LLM 使用的损失函数:衡量预测 token 是否正确 |
| MSE | 回归 | 误差平方的均值。用于预测数值。 |
| 对比损失 | 嵌入 | 在向量空间中拉近相似样本,推远离散样本。 |
优化器
| 优化器 | 关键思想 | 用途 |
|---|---|---|
| SGD | 使用小批量的梯度下降 | 简单,调参后效果不错。 |
| Adam | 每参数自适应学习率 | 最常用。“开箱即用”效果好。 |
| AdamW | Adam + 正确的权重衰减 | 训练 LLM 和 Transformer 的标准选择。 |
常见训练问题
过拟合
模型记忆训练数据但对新数据表现差。解决方案:dropout、正则化、更多数据。
梯度消失
梯度变得非常小,深层网络学不到东西。解决方案:ReLU、跳跃连接、归一化。
10
CNN:用于视觉的卷积神经网络
卷积神经网络 彻底改变了计算机视觉。它不是逐个像素地查看,而是应用 滤波器 来检测局部模式。
CNN 的流程
图像(像素) → 卷积(滤波器) → 池化(缩小) → 更多卷积+池化 → 分类
关键概念
卷积
一个小的滤波器(3x3、5x5)在图像上滑动。检测局部模式:水平边缘、角点、纹理。多个滤波器检测多个模式。
池化
降低分辨率同时保留重要信息。最大池化:取每个区域的最大值。使网络对微小偏移具有不变性。
特征图
每个卷积层的输出。浅层:边缘和颜色。深层:眼睛、轮子、字母。网络“学习”哪些模式是相关的。
跳跃连接(ResNet)
允许信息跳过层的捷径。解决了训练超深网络(100+ 层)的问题。2015 年的关键创新。
当前相关性
CNN 仍然是计算机视觉的基础(物体检测、分割)。Vision Transformer(ViT)在某些任务上正在取代它们,但 CNN 在边缘/移动设备上由于效率而占主导地位。Stable Diffusion 使用 U-Net(基于 CNN)进行降噪。
11
RNN 与 LSTM:用于序列的网络
在 Transformer 之前,循环神经网络 是处理序列(文本、音频、时间序列)的方式。理解它们能解释为什么 Transformer 是革命性的。
RNN 的工作原理
Token 1 → RNN(隐藏状态) → Token 2 + 状态 → RNN(更新状态) → Token 3 + 状态……
一次处理一个 token,维持一个“隐藏状态”来总结之前看到的所有内容。问题:当到达第 500 个 token 时,它已经“忘记”了第 1 个 token。
RNN vs LSTM vs Transformer
| 特性 | RNN | LSTM | Transformer |
|---|---|---|---|
| 处理方式 | 顺序 | 顺序 | 并行 |
| 记忆 | 短期 | 长期(门控) | 整个序列 |
| 最大上下文 | ~100 token | ~500 token | 128K–1M+ token |
| 可并行化 | 否 | 否 | 是(GPU) |
| 速度 | 慢 | 慢 | 快 |
为什么 Transformer 赢了?
两个原因:(1) 并行性:同时查看所有 token,充分利用大规模并行 GPU。(2) 注意力:不是将一切都压缩到固定的隐藏状态中,每个 token 可以直接“查看”序列中的任何其他 token。更多细节见 Transformer 幻灯片。
12
什么是 token?
Token 是模型处理的 离散单元。根据分词器和词汇表,可以是一个词、词的一部分、一个字符甚至字节。
分词示例
“Hola mundo” → [“Hola”, “ mundo“]
“desarrolladores” → [“des”, “arrol”, “ladores”]
“function getName()” → [“function”, “ get“, “Name”, “()”]
单词 vs Token
作为非常粗略的估计,1 个 token 在拉丁文本中大约相当于 3-4 个字符。语言、符号、代码和分词器会很大程度改变结果。
| 短语 | 单词数 | Token 数(约) | 比例 |
|---|---|---|---|
| “Hello world” | 2 | 2 | 1:1 |
| “Hola mundo” | 2 | 2-3 | ~1:1.25 |
| “Machine learning is great” | 4 | 4 | 1:1 |
| “El aprendizaje automático es genial” | 5 | 7-8 | 1:1.5 |
const getData = async () => {} | 7 | 10-12 | 1:1.6 |
- 在西班牙语中,通常比英语消耗更多 token 来表达相同内容,尽管比例取决于分词器和文本。
- 模型看到的不是文本: 它是数字序列(token ID)。每个 token 在模型词汇表中都有唯一的 ID。
- 一切以 token 衡量: 上下文窗口、API 价格、回答限制。它是 AI 的“货币”。
- 快速规则: 1 个 token 通常少于一个单词;仅作为初步估计使用。
13
什么是嵌入?
嵌入是一种 数值表示,用于单词、短语、图像、代码或文档。它将内容转换为由数百或数千个数字组成的向量,以便比较语义接近度。
什么是维度?
嵌入向量有数百或数千个分量。维度通常没有清晰的人类标签;重要的是向量的全局位置及其与其它向量的距离。
“gato” → [ 0.23, -0.87, 0.45, 0.12, … ]
“felino” → [ 0.21, -0.85, 0.48, 0.11, … ]
“JavaScript” → [ -0.56, 0.33, -0.12, 0.78, … ]
更多维度 = 更多细微差别
更多维度有更强的能力来区分细微差异,但也需要更多数据来有效学习。维度数通常由模型的设计者选择,是模型配置中的超参数。
相似文章
@shedoesai: 如何在不浪费1000多小时的情况下精通AI。没有无用的教程。没有虚假的AI大师。没有信息过载…
精选的AI学习栈,涵盖LLM、智能体、MCP、提示工程、RAG和向量数据库,包含视频、仓库、指南、书籍、论文和课程。同时提供了关于大型语言模型是什么以及它们如何工作的易懂解释。
@FakeMaidenMaker: AI 工程师全栈路线:带你从零基础开始从数学到大模型到 Agent 全部搞懂 网上 AI 资料一堆,但都是碎片——这里一篇微调、那里一个 agent demo、随便一搜全是"5 分钟搭一个 RAG"的快餐,真正从数学到 LLM 到 age…
A free, open-source AI engineering curriculum that covers math, LLMs, and agents across 20 phases and 435 lessons in Python, TypeScript, Rust, and Julia, designed to fill gaps in fragmented AI tutorials.
@dwarkesh_sp: 与 @ericjang11 的新黑板讲座:他演示了如何用现代AI工具从头构建AlphaGo。一些…
Eric Jang的黑板讲座逐步讲解了如何使用现代AI工具从零构建AlphaGo,涵盖了强化学习、蒙特卡洛树搜索、自我对弈,并与LLM训练相联系,同时讨论了自动化AI研究。
@pauliusztin_: 我们刚刚开源了完整的 @aiDotEngineer 研讨会!你可以克隆它并自行运行所有内容... → https://github…
一个开源研讨会仓库,用于构建真实世界的多智能体 AI 系统,包括深度研究智能体和 LinkedIn 写作工作流,使用 MCP 服务器、Pydantic 结构化输出以及带有 Claude Code 子智能体的智能体工程。
@swapnakpanda: AI & ML 免费课程来自斯坦福:❯ CS336 - 从头开始学 LLM ❯ CS221 - 人工智能 ❯ CS229 - 机器学习…
一套精选的免费斯坦福 AI 和 ML 课程列表,包括 CS336(从零开始学 LLM)、CS229(机器学习)、CS230(深度学习)等,并附有访问链接。