@bqbrady: https://x.com/bqbrady/status/2064055370809778371

X AI KOLs Timeline 2026/06/08 18:42 新闻

foundation-models vision-language-models deep-learning survey explainer image-encoders

摘要

一篇关于现代深度学习的详细个人综述，聚焦于基础模型、视觉语言模型及其架构决策，面向那些希望获得直觉而非密集数学的读者。

https://t.co/Fkep8LQTHI

查看原文

查看缓存全文

缓存时间: 2026/06/09 08:49

基础模型笔记

我偏好在一个非常具体的抽象层次上学习尖端技术：我不想阅读成页的数学公式和钻研数百篇研究论文，但我也希望理解为什么某个视觉编码器可能比另一个更好或更差的直觉。因此，我发现大多数前沿机器学习研究其实并不是针对我的。

我最近读了《万物简史》。这本书很美，作者试图为每一项科学发现提供动机，将其置于历史中，并与同时代的其他发现进行对话。科学不是孤立进行的，你读的每一篇论文都是对前人的回应。读完那本书后，我受到启发，想写点东西，考察现代深度学习研究的路径依赖性，以便理解最重要的开放性问题。

这篇近万字的文档是我尝试对现代深度学习领域进行的一次调查，理解各个领域之间的相似与不同，并在我能记住的抽象层次上为它们提供动机。鉴于我覆盖的范围，任何特定领域的专家肯定能指出一些过分简化或略有偏差的地方。但也许这对那些不在研究前沿的人来说，就像对我写作时一样有用。这篇文章主要关注架构决策，尽管任何实践者都会告诉你，训练前沿模型的过程远不止把架构搞对那么简单。

文章末尾我附上了一个术语表，供参考我通篇引用的概念和论文。那么，我就从底层开始，逐步向上提升复杂度。

基础 LLM

我会跳过基础 LLM 和 Transformer 架构。我写的东西都无法与那些关于语言模型的优秀解释相媲美。我最喜欢的大概是 3Blue1Brown 的那些视频。

VLM 与全模态模型

视觉-语言模型的关键区别在于，它们除了文本还能处理多模态输入。这是大多数常用模型（如 Claude 或 GPT）的架构。

为此，我们需要一种方法将输入转换到与文本相同的嵌入空间，然后混合加入训练数据，让模型学会如何推理新的模态。在构建虚拟同事或编程助手时，我们最关心的三种媒介是图像、视频和音频。其中，图像研究最深入、理解最透彻。事实上，我认为许多前沿模型，包括 Opus 4.8，可能只支持图像，没有原生音频或视频编码器（它们仍可通过工具解析其他文件类型）。

图像编码器

你可能会直观地想到两种用 LLM 处理图像的思路：

将图像的每个像素编码为 token，像处理像素输入/输出的 LLM 一样对待。
使用现成的图像⇔文本转换器，将图像转为文本 token，然后再将这些文本 token 输入 LLM。

这两种方法都有不同的问题。像素方法压缩不足。早期的 LLM 只有 32k–128k 上下文窗口，这意味着单张高分辨率图像就能多次填满整个上下文。学习会变得稀疏且低效。第二种方法压缩过度。即使是一个详细的文本编码器，也预先承诺了对图像的某种表示，这将使模型难以回答那些未提前预料且未编码到文本表示中的细微问题。

我们真正需要的是介于两者之间的东西：构建一个图像的潜在表示，能够转换到与文本相同的子空间，同时保留图像丰富而稠密的表示。幸运的是，早在 2021 年初，OpenAI 就在推进一种自监督的图像模型——CLIP，它具有一些有用的特性。CLIP 是一个双编码器，接收图像和详细描述，使用两个 Transformer 将图像和描述都转换到同一个子空间。这使得用户可以用图像或文本块，转换到共享子空间，然后与另一种模态进行匹配。

我们可以不完成完整的图像→文本转换，而是将这个模型拦腰截断，只使用将图像转换到潜在空间的部分。然后训练一个独立的模型，叫做投影器（一个小型 MLP），将潜在图像投影到与文本输入相同的嵌入子空间中。后来，Google 用 SigLIP 改进了 CLIP。SigLIP-2 现在是 SOTA，被用于 Qwen 3.5 等领先模型。这被称为 ViT（视觉 Transformer）。

关于 ViT 的一个奇怪之处是，图像在编码之前是如何分割的。反直觉的是，直接将图像分成一系列不重叠的子图像效果似乎相当不错。例如，我们可以把一张图像分成 16x16 的网格，并对每个部分进行编码。通常投影器会进一步压缩，可能将其从 256 个 token 变成 128 个 token 左右（关键论文是《一张图像等于 16x16 个词》）。

我原本以为这会更像一种卷积扫描，这样跨越两个块的语义含义就可以直接分析。总的来说，令人印象深刻的是，这些模型能够通过这种蛮力算法理解屏幕截图上的文字，尽管所有基础模型都有一个普遍趋势：给定足够的数据，惊人的理解力会在规模上涌现。

给 LLM 添加视觉训练数据是相当复杂且多步骤的。有两个担忧：一是稳定性，二是计算效率。开源模型的配方大致如下：采用 SigLIP 的预训练检查点，并用一个现有的基础模型作为目标 LLM。首先预热必须从头训练的投影器。也许在更适用于你关注领域的数据上微调编码器（它还需要学会理解更广泛的分辨率）。然后收集一些多模态任务，让它端到端地训练，视觉编码器上的学习率要低，因为它已有很强的先验。

视频编码器

下一步是扩展到视频输入。朴素的策略是取每一帧，通过 ViT 处理，添加某种时间嵌入，然后推入主模型，把视频当作一系列图像。但这极其低效，而且当视频超过几秒后就会崩溃。关键观察是，帧与帧之间往往变化很小。因此，已经发展出几种策略来提高 token 效率：

每 N 帧采样一次，希望捕捉到变化。
通过检测变化量大的帧跳变进行智能采样。
每 N 帧采样一次，然后只编码全帧样本之间的差异，使用更少的 token。

这是一个活跃的研究领域，随着焦点转向构建更好的世界模型（我们将在后面讨论），它变得越来越重要。

音频编码器

音频对我来说是最令人困惑和最难理解的。音频在高层结构上大致与图像类似，但关于最佳实现的文献共识要少得多，因为 LLM 中原生音频理解还不太常见。

最初的音频编码器借鉴了 Whisper 的思路，这是 OpenAI 在 2022 年发布的一个开源自动语音识别模型。原始音频只是一系列振幅。为了更容易处理，你在上面滑动一个小窗口（Whisper 使用 25ms 窗口，10ms 步长），并对每个窗口运行快速傅里叶变换，将其转换为梅尔频谱图，这有点像一张图像，告诉你每个频率上的能量集中情况。然后将其输入音频编码器（Qwen 称之为 AuT），再通过一个小型投影器与基础 LLM 的嵌入空间对齐。

与 SigLIP 类似，音频编码器最初独立于完整 LLM 进行训练。Qwen 通过训练一个编码器-解码器模型来实现这一点，该模型接收一段音频，将其转换为文本，然后再转换回音频，最终的全模态模型只使用编码器部分作为输入数据。你可能会想，数据混合应该包含音频和音频转录文本，因为语音理解是音频数据中最重要的子集。然而，如果模型只学会转录，那就违背了原生音频支持的目的，你不如使用两个流水线模型。要使其真正有用，你还需要让模型学会理解音调、情感和音频的其他细微特征。此外，并非所有音频都是人声，你可能还需要模型理解音乐或机械声音。要学习这些，你可以在数据混合中加入音频理解数据，即对音频听起来如何的描述，而不是直接转录。

训练与共享表示

你可以想象，归根结底，训练多模态模型最终更多的是数据问题而非架构问题。你需要为你关心的所有领域提供大量的多媒体-描述标签，然后是多模态输入和期望输出的完整端到端示例。我怀疑计算机使用数据在这里会是一个很好的匹配。计算机上的智能体任务对于 LLM 来说是可处理的，容易评估，并且接受图像输入，从而使模型能够学习视觉推理。我还想知道，计算机屏幕截图是否可能与传统世界图像是完全不同的分布，需要单独的编码器或至少单独的数据栈。虽然它们技术上都是基于 2D 像素的网格，但很难想象比一张日落照片和一张浏览器截图更不同的数据输入了。

在理想情况下，跨所有这些模态的训练应该能让模型不仅学习数字互联网，还能通过这个共享管道从音频和视频输入中学习物理的真实动态。实际上，迁移学习和泛化在实验室之外仍然不被完全理解，模型在多大程度上形成了跨模态的共享理解仍有争议。

另一个值得问的问题是，所有这些模态是否需要原生的模型支持，或者是否可以通过工具调用来摄取。例如，模型没有专门为读取 PDF 训练的自定义编码器。相反，它使用一个工具从 PDF 中提取相关信息，并通过文本或图像管道处理。你可以想象一个模型通过顺序地通过图像管道处理选定的帧来获得廉价的视频理解，或者编写 Python 脚本从音频文件中提取信息。

整个栈甚至没有涉及输出非文本 token，这是像 Gemini 系列这样的新型全模态模型的焦点。我将在后面部分触及多模态生成，因为这些全对全模型还很新。还值得一提的是，有报告称多模态能力会相互挤占，导致某些类型的退化。你可能会希望学习文本中的能力，然后在图像空间中构建同一现象的共享表示会增强模型的理解。但如果这些表示最终有些脱节，当我们试图用最大信息量来填充模型参数时，可能会导致一些负面效果。

注：在我写这篇文章时，Google 发布了 Gemma 4 12B 并公开了架构。与我描述的内容相比，这个模型的编码器极其简化。尽管人们说在这些压缩后的潜在表示上学习更容易，但似乎有可能，如果你把数据混合搞得完全正确，从头开始端到端地训练所有东西可能会略微更优。这也是我们在后面关于思考模型交互模型中看到的趋势。

混合 Transformer

我上面提到多模态能力可能相互挤占，添加图像数据会损害文本性能，反之亦然。到目前为止，该领域主要通过数据平衡技巧来应对这一点。但在 2024 年底，Meta 提出了一种更直接的修复方法，称为混合 Transformer（MoT）。其思想是将 Transformer 的主体分成 N 个并行权重堆栈，每个模态一个，但让它们都通过一个全局自注意力。一个视频 token 通过自己的视频权重进行前馈和注意力投影层，但注意力操作本身覆盖所有 token，因此它仍然可以关注那些通过自己文本权重的文本 token。想象将多个 Transformer 拉链在一起，其中自注意力混合所有 token，但除了注意力之外的其他每一层都按模态复制。命名上有点偏离经典的 MoE（混合专家），因为没有 token 级别的路由；每个模态只是确定性地使用其专用堆栈。

我们会在 VLA（视觉-语言-动作）部分再次看到这个想法，应用于更困难的问题：混合自回归理解与扩散生成。

实时与交互模型

随着 LLM 在经济中普及，一系列用例开始出现，其中延迟是瓶颈。在这些领域，你可能会牺牲一些拥有万亿参数统一语言模型的智能，以便让回合制交互感觉更自然。

实时音频模型

第一代实时模型专注于音频，因为音频是延迟问题最明显的领域。最初构建音频模型的方式是使用四个模型的组合：一个说话人检测模型，用于检测用户何时开始和结束说话……

@bqbrady: https://x.com/bqbrady/status/2064055370809778371

基础模型笔记

基础 LLM

VLM 与全模态模型

图像编码器

视频编码器

音频编码器

训练与共享表示

混合 Transformer

实时与交互模型

实时音频模型

相似文章

@harshbhatt7585: https://x.com/harshbhatt7585/status/2063593933314113587

@0xCodez: https://x.com/0xCodez/status/2058911661973454915

@antoniolupetti: "Dive into Deep Learning" 是一本开源书籍，它构建了大型语言模型的数学基础，涵…

@drfeifei: https://x.com/drfeifei/status/2062247238143996275

@juleslogs: 想理解现代AI？从这里开始：1. Transformers → Illustrated Transformer 2. LLMs → Build a Large Language Mo…

提交意见反馈