[Talk] Text Diffusion — Google DeepMind's Brendan O’Donoghue

Reddit r/LocalLLaMA 论文

摘要

DeepMind研究员Brendan O'Donoghue深入介绍文本扩散模型,通过迭代去噪生成文本,相比自回归模型延迟更低但吞吐量受限,并展示自修正和动态计算等独特优势。

This video was released just a week ago, right before the release of DiffusionGemma, and it's even more relevant now! it answers a lot of questions and confusion I've seen in this sub-reddit on this release, so I highly recommend giving it a watch if you're interested in it.
查看原文
查看缓存全文

缓存时间: 2026/06/12 02:57

TL;DR: DeepMind 研究员 Brendan O'Donoghue 深入介绍了文本扩散模型——通过迭代去噪生成文本,相比自回归模型延迟更低,但吞吐量受限;同时展示了自修正(self-correction)和动态计算(adaptive computation)等独特优势。 ## 文本扩散基础 文本扩散的思路与图像、视频扩散类似:训练时向干净的 token 序列逐步添加噪声(例如随机替换 token),让神经网络学会去噪;推理时从一个纯噪声(随机 token)序列开始,迭代精炼,最终得到干净的输出。与自回归逐 token 生成不同,扩散模型在多次前向传播中一次性处理整个序列,可以双向关注未来 token。 一年前 DeepMind 发布了名为 Gemini Diffusion 的研究预览版,面向约 10 万用户开放。该模型是 Gemini 的一个变种,采用文本扩散而非自回归生成。当时与 Gemini 2.0 Flashlight 相比,质量接近(代码方面略优),但延迟低得多。不过那是一年前的结果,现在已有更新(如 DiffusionGemma)。 ## 自回归 vs. 扩散:优缺点 ### 优点 - **更低的延迟(推理速度更快)**:在单次请求中能以更高的每秒 token 数生成。 - **双向注意力(bidirectional attention)**:模型可以关注未来 token,从而实现自我修正。例如,它可以先推理,发现错误后回溯并修正前文。 - **自适应计算(adaptive computation)**:训练后,模型能根据问题难度自动决定所需的去噪步数——简单问题用少步,复杂问题用多步。 - **原地编辑(in-place editing)**:可以指定只修正序列中的某些 token。 ### 缺点 - **大批量请求吞吐量较低**:自回归模型可以将大量查询组成批次并行处理,充分利用 GPU/TPU 的算力,从而以低成本服务海量用户。而扩散模型需要对同一段数据多次前向传播,导致计算瓶颈过早出现——单用户延迟虽低,但总体吞吐量通常更低,服务成本更高。这也是目前文本扩散未被大规模应用的主要原因。 ## 为什么扩散模型延迟更低(硬件原理) 现代 GPU/TPU 的运算瓶颈在于**内存带宽**而非计算能力(flops)。运行自回归模型时,每生成一个 token 都需要将全部模型权重、KV 缓存等数据从 HBM 传输到张量核心。若批次大小为 1,生成 N 个 token 就需要 N 次完整的权重传输。 而扩散模型:假设要生成 256 个 token,若用 24 次迭代去噪(而非 256 次自回归步骤),内存传输次数就可减少到 1/10。如果模型确实受限于带宽,延迟就能降低约 10 倍。在 Gemini Diffusion 预览版中,根据查询长度不同,能达到约 2000 token/s 的稳定输出速率(已包含预处理时间)。 ## 双向推理与自修正实例 提示词:求 `(81的平方根 * (2/3)的平方) + ...`(题目略,正确答案 39)。 - 一次前向传播后:output = 60,错误。 - 两次前向传播后:output 变为 49,推理过程逐步展开(如“计算81的平方根”等)。 - 三次前向传播后:推理完成,output 修正为 39。模型回溯并纠正了最初输出的答案。 同时期的 ChatGPT 4o(输出 40)和 Gemini 2.5 Flash(输出 42 且坚持错误)都未通过该题。这些模型比 Gemini Diffusion 大得多,但自回归的因果注意力难以自我修正。文本扩散模型则天然具备双向信息流动能力,可以在多次迭代中纠正错误。 ## 动态计算:自适应步数 训练时,模型学会自动判断何时停止去噪。对于简单回复(如“写出π的前100位数字”),4 步即完成;中等难度(写一段 FizzBuzz 代码)约 18 步;更复杂的问题(一段话解释量子力学)需 31 步。在一组老式的评测基准上,困难题目(如 GPQA Diamond)花费的迭代次数明显多于简单题目(如 MBPP 基础 Python 题)。这样,模型可以按问题复杂度分配计算资源。 Source: [YouTube视频](https://www.youtube.com/watch?v=r305-aQTaU0)

相似文章

google/diffusiongemma-26B-A4B-it

Hugging Face Models Trending

Google DeepMind 发布了 DiffusionGemma,这是一个 26B 参数的 Mixture-of-Experts 模型,使用离散扩散实现更快的文本生成,支持多模态输入和 256K token 上下文。

DiffusionGemma: 文本生成速度提升4倍

Hacker News Top

Google推出DiffusionGemma,这是一个实验性的26B MoE开源模型,通过文本扩散技术,在GPU上实现高达4倍的文本生成速度提升,针对速度要求高的交互式本地工作流。