[Talk] Text Diffusion — Google DeepMind's Brendan O’Donoghue

Reddit r/LocalLLaMA 2026/06/11 23:43 论文

摘要

DeepMind研究员Brendan O'Donoghue深入介绍文本扩散模型，通过迭代去噪生成文本，相比自回归模型延迟更低但吞吐量受限，并展示自修正和动态计算等独特优势。

This video was released just a week ago, right before the release of DiffusionGemma, and it's even more relevant now! it answers a lot of questions and confusion I've seen in this sub-reddit on this release, so I highly recommend giving it a watch if you're interested in it.

查看原文

查看缓存全文

缓存时间: 2026/06/12 02:57

TL;DR: DeepMind 研究员 Brendan O'Donoghue 深入介绍了文本扩散模型——通过迭代去噪生成文本，相比自回归模型延迟更低，但吞吐量受限；同时展示了自修正（self-correction）和动态计算（adaptive computation）等独特优势。 ## 文本扩散基础文本扩散的思路与图像、视频扩散类似：训练时向干净的 token 序列逐步添加噪声（例如随机替换 token），让神经网络学会去噪；推理时从一个纯噪声（随机 token）序列开始，迭代精炼，最终得到干净的输出。与自回归逐 token 生成不同，扩散模型在多次前向传播中一次性处理整个序列，可以双向关注未来 token。一年前 DeepMind 发布了名为 Gemini Diffusion 的研究预览版，面向约 10 万用户开放。该模型是 Gemini 的一个变种，采用文本扩散而非自回归生成。当时与 Gemini 2.0 Flashlight 相比，质量接近（代码方面略优），但延迟低得多。不过那是一年前的结果，现在已有更新（如 DiffusionGemma）。 ## 自回归 vs. 扩散：优缺点 ### 优点 - **更低的延迟（推理速度更快）**：在单次请求中能以更高的每秒 token 数生成。 - **双向注意力（bidirectional attention）**：模型可以关注未来 token，从而实现自我修正。例如，它可以先推理，发现错误后回溯并修正前文。 - **自适应计算（adaptive computation）**：训练后，模型能根据问题难度自动决定所需的去噪步数——简单问题用少步，复杂问题用多步。 - **原地编辑（in-place editing）**：可以指定只修正序列中的某些 token。 ### 缺点 - **大批量请求吞吐量较低**：自回归模型可以将大量查询组成批次并行处理，充分利用 GPU/TPU 的算力，从而以低成本服务海量用户。而扩散模型需要对同一段数据多次前向传播，导致计算瓶颈过早出现——单用户延迟虽低，但总体吞吐量通常更低，服务成本更高。这也是目前文本扩散未被大规模应用的主要原因。 ## 为什么扩散模型延迟更低（硬件原理）现代 GPU/TPU 的运算瓶颈在于**内存带宽**而非计算能力（flops）。运行自回归模型时，每生成一个 token 都需要将全部模型权重、KV 缓存等数据从 HBM 传输到张量核心。若批次大小为 1，生成 N 个 token 就需要 N 次完整的权重传输。而扩散模型：假设要生成 256 个 token，若用 24 次迭代去噪（而非 256 次自回归步骤），内存传输次数就可减少到 1/10。如果模型确实受限于带宽，延迟就能降低约 10 倍。在 Gemini Diffusion 预览版中，根据查询长度不同，能达到约 2000 token/s 的稳定输出速率（已包含预处理时间）。 ## 双向推理与自修正实例提示词：求 `(81的平方根 * (2/3)的平方) + ...`（题目略，正确答案 39）。 - 一次前向传播后：output = 60，错误。 - 两次前向传播后：output 变为 49，推理过程逐步展开（如“计算81的平方根”等）。 - 三次前向传播后：推理完成，output 修正为 39。模型回溯并纠正了最初输出的答案。同时期的 ChatGPT 4o（输出 40）和 Gemini 2.5 Flash（输出 42 且坚持错误）都未通过该题。这些模型比 Gemini Diffusion 大得多，但自回归的因果注意力难以自我修正。文本扩散模型则天然具备双向信息流动能力，可以在多次迭代中纠正错误。 ## 动态计算：自适应步数训练时，模型学会自动判断何时停止去噪。对于简单回复（如“写出π的前100位数字”），4 步即完成；中等难度（写一段 FizzBuzz 代码）约 18 步；更复杂的问题（一段话解释量子力学）需 31 步。在一组老式的评测基准上，困难题目（如 GPQA Diamond）花费的迭代次数明显多于简单题目（如 MBPP 基础 Python 题）。这样，模型可以按问题复杂度分配计算资源。 Source: [YouTube视频](https://www.youtube.com/watch?v=r305-aQTaU0)

[Talk] Text Diffusion — Google DeepMind's Brendan O’Donoghue

相似文章

@omarsar0: 太棒了！我最近花了很多时间在研究扩散LLM上，所以这真是完美的时机。我觉得有……

google/diffusiongemma-26B-A4B-it

DiffusionGemma: 文本生成速度提升4倍

谷歌最新DiffusionGemma开源AI模型速度提升4倍

@volokuleshov: 恭喜谷歌开源Gemma Diffusion！我想特别感谢一组非常有才华的康奈尔大学学生，他们在实验室开发了这个模型中许多新想法：

提交意见反馈