@686f6c61: 我已为好奇的人们更新了AI Workshop。新增约130张幻灯片,涵盖:经典机器学习应用、BFS/DF…

X AI KOLs Timeline 工具

摘要

更新了AI Workshop,新增超过130张幻灯片,涵盖经典机器学习、搜索算法、规划、知识图谱、智能体及实践实验,基于大学课程大纲。

我已为好奇的人们更新了AI Workshop。 新增约130张幻灯片,涵盖:经典机器学习应用、BFS/DFS/A*搜索、SAT/CSP、规划/PDDL、游戏中的minimax/MCTS、RDF/OWL/SPARQL与本体、RAG与知识图谱对比、经典与现代智能体,以及可操作的实践实验。 这些内容源自软件工程学位课程中“人工智能与知识工程”科目的教学大纲。 包含更多公式、示例、参考资料……但面向所有人。尝试从基础开始讲解。 https://workshop-ia-2026.686f6c61.dev ** 如果你持续通过私信给我反馈,我会继续改进。上一次更新获得了28K次访问。谢谢。
查看原文
查看缓存全文

缓存时间: 2026/05/17 01:25

我已更新了面向好奇人群的 AI 工作坊。新增了大约 130 页幻灯片,内容涵盖:经典机器学习应用、BFS/DFS/A* 搜索、SAT/CSP、规划/PDDL、带有 minimax/MCTS 的游戏、RDF/OWL/SPARQL 和本体、RAG 与知识图谱对比、经典与现代 Agent,以及可动手实践的实验。这些内容来自《软件工程》专业的《人工智能与知识工程》课程大纲。包含了更多公式、示例、参考文献……但面向所有人。力求从零讲起。
https://workshop-ia-2026.686f6c61.dev
如果你持续通过私信给我反馈,我会继续改进。上次更新获得了 28K 次访问。谢谢。


面向好奇人群的 AI 工作坊

来源: https://workshop-ia-2026.686f6c61.dev/
Agent、模型与工具 – 作者:686f6c61
2026 年 5 月(更新日期:2026 年 5 月 26 日)

当日更新 · 2026 年 5 月 16 日
新增模块:经典 AI、机器学习、Agent、评估、运行、安全、实验以及 AI 用户体验。
使用键盘 ←→ 方向键或按钮导航。

01

基础

什么是(以及什么不是)人工智能,token、嵌入、训练和推理循环如何工作。

02

什么不是 AI?

  • **不是魔法也不是科幻。**机器内部没有“思维”。它是在服务器上运行的软件,依靠电力和硅。
  • **不是有意识的思维。**没有欲望、情感或意图。它“不想要”任何东西。处理 token 并计算概率。
  • **不是增强版的搜索引擎。**搜索引擎检索页面或文档。LLM(Large Language Model,大型语言模型)根据学到的模式生成文本,默认不查询外部来源。
  • **不像人类那样“思考”。**它可以输出看似推理的步骤,但其底层机制是根据学到的模式预测下一个 token。
  • **不是无懈可击或客观的。**可能产生幻觉(自信地生成虚假信息),继承训练数据中的偏见,并且缺乏对自身错误的可靠内省能力。

它不思考
没有认知过程。它计算 token 序列上的概率分布。
它没有意识
没有主观体验,没有自我意识,也没有世界模型。它是一个非常复杂的数学函数。
它不像人那样理解
学到的是 token 和概念的统计表示。它可以表现得像理解了,但没有经验或自己的判断。
它不是魔法
它是线性代数、矩阵运算和梯度优化。令人印象深刻,但可以解释。

关键思想
如果你理解 AI 不像人类那样思考、理解和推理,就能更好地使用它:你会给出更精确的指令,更少盲目地相信其回答。

03

什么是 AI?

大规模数学模型
拥有数十亿或数万亿参数调整过的神经网络,用于识别文本、图像、代码和音频中的模式。

大规模模式识别
人类需要数小时分析的内容,模型在几秒内处理完毕。它检测的是统计相关性,而不是“理解”。

下一个 token 的统计预测
给定一个 token 序列,预测下一个最可能的 token。重复数千次,便产生连贯的段落。

能力放大器
如果你会编程,它让你更快。如果你不会,它会给你一种它能正常工作的错觉……直到它失效。

现代 AI 的关键里程碑

日期里程碑为什么重要
2017Transformer架构“注意力就是全部”。后来一切的基础。
2020GPT-31750 亿参数。证明规模化有效:更多数据 + 更多参数 = 更强能力。
2022ChatGPTRLHF(基于人类反馈的强化学习)+ 聊天界面。AI 变得对公众可访问。
2023GPT-4多模态和高级推理。能力质的飞跃。
2024Claude 3 / Gemini真正的竞争。支持 200K+ token 上下文。AI 成为日常工具。
2025-26Agent 时代AI 执行完整任务:浏览、编程、部署。Claude Code、Devin、自主 Agent。

关键思想
AI 不能替代人类判断。它放大判断力。如果你提供清晰的上下文和精确的约束,结果令人印象深刻。如果你提供模糊信息,结果不可预测。

04

什么是确定性系统,为什么 AI 不是?

确定性系统
相同输入 → 始终相同输出。编译器、SQL 查询、纯函数。作为程序员,我们习惯于这样思考:f(x) = y,永远不变。

function sumar(a, b) {
  return a + b;
}

随机系统(AI)
相同输入 → 可能不同的输出。模型可以从概率分布中采样。每次执行可能根据配置和基础设施给出不同结果。

prompt: "解释什么是 Rust"

为什么会出现这种情况?
模型不会返回“正确回答”。它计算所有可能 token 的概率分布,然后 从中采样。参数 temperaturetop-ptop-k 控制允许的随机程度。设置为 temperature=0 时接近确定性,但无法保证(数值精度和批处理会导致变化)。

从提示到 token:生成流程
输入文本 → 分词 → 概率分布 → 采样(temperature、top-p、top-k) → 选中的 token

实际后果
不能只用期望返回一个精确句子的单元测试。思维方式需要改变:从“返回 X”变成“在合理范围内返回合理内容”。策略:评估(evals)、结构验证、对属性而非精确值的断言。

与第 27 张幻灯片的关联
参数 temperaturetop-ptop-k 将在配置参数幻灯片中详细说明。在那里你会看到如何根据用例调整它们。

05

AI 原理

监督学习
提供带标签的示例(输入 → 期望输出),模型学会泛化。这是微调的基础。

无监督学习
模型在未标记数据中找到模式。LLM 就是这样预训练的:在大规模文本中预测下一个单词。

基于偏好和强化的后训练
RLHF = 基于人类反馈的强化学习。这是一种后训练技术:人类对回答评分或比较,该信号帮助对齐模型。并非唯一方法:还有 SFT、DPO、RLAIF、RFT 和可验证强化。

注意力(Transformer)
改变一切的机制。允许模型同时查看输入中的所有单词,并决定每个预测哪些单词相关。

缩放定律
更多数据 + 更多参数 + 更多计算 = 更强模型。这不是魔法:这是一个可预测的关系(Kaplan et al., 2020)。解释了为什么行业在 GPU 集群上投入数十亿美元。

06

人工神经元

一切从这里开始。人工神经元是一个 数学函数,它接收数字,乘以权重,加上偏置,然后应用激活函数。

代码实现

function neurona(inputs, weights, bias) {
  const sum = inputs.reduce((acc, x, i) => acc + x * weights[i], 0);
  return activation(sum + bias);
}
neurona([0.5, 0.3, 0.8], [0.2, -0.4, 0.7], 0.1);

激活函数

函数公式使用场景
ReLUmax(0, x)隐藏层。因其简单高效最常用。
Sigmoid1 / (1 + e^-x)输出在 0 到 1 之间。二分类。
Softmax归一化为概率最后一层。类上的概率分布。
Tanh(e^x - e^-x) / (e^x + e^-x)输出在 -1 到 1 之间。用于 RNN/LSTM。

为好奇者说明
一个神经元是一个带有学习参数(权重和偏置)的纯函数。“智能”不在单个神经元中:而在于训练期间调整的 数十亿参数。在 Claude 或 GPT 等专有模型中,提供商通常不会公布确切的权重数量。

07

神经网络:层与架构

神经网络是一个 按层组织的神经元图。每一层转换数据并传递给下一层。

网络结构(MLP)
输入层(你的数据) → 隐藏层 1(简单模式) → 隐藏层 2(复杂模式) → 输出层(预测)

每层学习什么?

浅层
检测简单模式:边缘、颜色、频率。在文本中:n-gram、句法模式。
中层
将简单模式组合成概念:形状、纹理、词语之间的关系。
深层
高层抽象:完整对象、语义含义、推理。

“深度”学习 = 许多层
2-3 层的网络是“浅层”的。数十或数百层是“深层”的。在专有模型中,如果提供商未公布层数,则正确做法是标记为未公布而非声称数据。更多层通常带来更强的抽象能力,但会增加延迟、内存和训练难度。

08

网络如何学习:反向传播

训练是一个 循环:预测、测量误差、调整权重、重复。数十亿次。

训练循环

  1. 前向传播(数据 → 预测) → 2. 计算损失(预测 vs 真实值) → 3. 反向传播(计算梯度) → 4. 更新权重(梯度下降)↻

伪代码

for epoch in range(num_epochs):
  for batch in dataloader:
    prediction = model.forward(batch.input)
    loss = loss_fn(prediction, batch.target)
    loss.backward()
    optimizer.step()
    optimizer.zero_grad()

类比:在雾中下山
想象你在雾中的山上,想到达山谷(损失函数的最小值)。你看不到路,但能感觉到脚下的坡度。每一步,你朝下降最快的方向前进(梯度)。学习率 是步长:太大会越过大谷,太小则永远走不到。

09

损失函数与优化器

损失函数衡量模型犯错的多少。优化器决定如何调整权重来减少误差。

主要损失函数

函数使用场景衡量什么
交叉熵分类、LLM预测分布与真实分布之间的差异。LLM 使用的损失函数:衡量预测 token 是否正确
MSE回归误差平方的均值。用于预测数值。
对比损失嵌入在向量空间中拉近相似样本,推远离散样本。

优化器

优化器关键思想用途
SGD使用小批量的梯度下降简单,调参后效果不错。
Adam每参数自适应学习率最常用。“开箱即用”效果好。
AdamWAdam + 正确的权重衰减训练 LLM 和 Transformer 的标准选择。

常见训练问题

过拟合
模型记忆训练数据但对新数据表现差。解决方案:dropout、正则化、更多数据。

梯度消失
梯度变得非常小,深层网络学不到东西。解决方案:ReLU、跳跃连接、归一化。

10

CNN:用于视觉的卷积神经网络

卷积神经网络 彻底改变了计算机视觉。它不是逐个像素地查看,而是应用 滤波器 来检测局部模式。

CNN 的流程
图像(像素) → 卷积(滤波器) → 池化(缩小) → 更多卷积+池化 → 分类

关键概念

卷积
一个小的滤波器(3x3、5x5)在图像上滑动。检测局部模式:水平边缘、角点、纹理。多个滤波器检测多个模式。

池化
降低分辨率同时保留重要信息。最大池化:取每个区域的最大值。使网络对微小偏移具有不变性。

特征图
每个卷积层的输出。浅层:边缘和颜色。深层:眼睛、轮子、字母。网络“学习”哪些模式是相关的。

跳跃连接(ResNet)
允许信息跳过层的捷径。解决了训练超深网络(100+ 层)的问题。2015 年的关键创新。

当前相关性
CNN 仍然是计算机视觉的基础(物体检测、分割)。Vision Transformer(ViT)在某些任务上正在取代它们,但 CNN 在边缘/移动设备上由于效率而占主导地位。Stable Diffusion 使用 U-Net(基于 CNN)进行降噪。

11

RNN 与 LSTM:用于序列的网络

在 Transformer 之前,循环神经网络 是处理序列(文本、音频、时间序列)的方式。理解它们能解释为什么 Transformer 是革命性的。

RNN 的工作原理
Token 1 → RNN(隐藏状态) → Token 2 + 状态 → RNN(更新状态) → Token 3 + 状态……
一次处理一个 token,维持一个“隐藏状态”来总结之前看到的所有内容。问题:当到达第 500 个 token 时,它已经“忘记”了第 1 个 token。

RNN vs LSTM vs Transformer

特性RNNLSTMTransformer
处理方式顺序顺序并行
记忆短期长期(门控)整个序列
最大上下文~100 token~500 token128K–1M+ token
可并行化是(GPU)
速度

为什么 Transformer 赢了?
两个原因:(1) 并行性:同时查看所有 token,充分利用大规模并行 GPU。(2) 注意力:不是将一切都压缩到固定的隐藏状态中,每个 token 可以直接“查看”序列中的任何其他 token。更多细节见 Transformer 幻灯片。

12

什么是 token?

Token 是模型处理的 离散单元。根据分词器和词汇表,可以是一个词、词的一部分、一个字符甚至字节。

分词示例
“Hola mundo” → [“Hola”, “ mundo“]
“desarrolladores” → [“des”, “arrol”, “ladores”]
“function getName()” → [“function”, “ get“, “Name”, “()”]

单词 vs Token
作为非常粗略的估计,1 个 token 在拉丁文本中大约相当于 3-4 个字符。语言、符号、代码和分词器会很大程度改变结果。

短语单词数Token 数(约)比例
“Hello world”221:1
“Hola mundo”22-3~1:1.25
“Machine learning is great”441:1
“El aprendizaje automático es genial”57-81:1.5
const getData = async () => {}710-121:1.6
  • 在西班牙语中,通常比英语消耗更多 token 来表达相同内容,尽管比例取决于分词器和文本。
  • 模型看到的不是文本: 它是数字序列(token ID)。每个 token 在模型词汇表中都有唯一的 ID。
  • 一切以 token 衡量: 上下文窗口、API 价格、回答限制。它是 AI 的“货币”。
  • 快速规则: 1 个 token 通常少于一个单词;仅作为初步估计使用。

13

什么是嵌入?

嵌入是一种 数值表示,用于单词、短语、图像、代码或文档。它将内容转换为由数百或数千个数字组成的向量,以便比较语义接近度。

什么是维度?
嵌入向量有数百或数千个分量。维度通常没有清晰的人类标签;重要的是向量的全局位置及其与其它向量的距离。

“gato” → [ 0.23, -0.87, 0.45, 0.12, … ]
“felino” → [ 0.21, -0.85, 0.48, 0.11, … ]
“JavaScript” → [ -0.56, 0.33, -0.12, 0.78, … ]

更多维度 = 更多细微差别
更多维度有更强的能力来区分细微差异,但也需要更多数据来有效学习。维度数通常由模型的设计者选择,是模型配置中的超参数。

相似文章

@FakeMaidenMaker: AI 工程师全栈路线:带你从零基础开始从数学到大模型到 Agent 全部搞懂 网上 AI 资料一堆,但都是碎片——这里一篇微调、那里一个 agent demo、随便一搜全是"5 分钟搭一个 RAG"的快餐,真正从数学到 LLM 到 age…

X AI KOLs Timeline

A free, open-source AI engineering curriculum that covers math, LLMs, and agents across 20 phases and 435 lessons in Python, TypeScript, Rust, and Julia, designed to fill gaps in fragmented AI tutorials.