谷歌最新DiffusionGemma开源AI模型速度提升4倍

Ars Technica 2026/06/10 19:29 模型

google diffusion-model open-source text-generation speed-boost gemma local-ai

摘要

谷歌发布了DiffusionGemma，这是一个实验性的开源文本生成扩散模型，相比自回归模型实现了4倍速度提升，并针对本地处理进行了优化。

<p>又是一个新的一天，谷歌又发布了一个AI模型。这次，Google DeepMind推出了<a href="https://arstechnica.com/ai/2026/04/google-announces-gemma-4-open-ai-models-switches-to-apache-2-0-license/">Gemma 4开源模型家族</a>的新成员，但它与系列中其他模型有根本性的不同。DiffusionGemma不像大多数AI模型那样线性生成输出，而是能够并行生成整段文本。<a href="https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation/">谷歌表示</a>这使得它在本地硬件（如Nvidia DGX或普通的游戏GPU）上运行时更快、更高效。</p> <p>大多数AI模型被设计为自回归模型——从左到右逐个token生成文本。DiffusionGemma与图像生成模型有更多共同点，后者从静态开始，然后去噪以创建所需内容。该模型在一个画布上多次运行占位token字段，生成可能的token，并利用这些token改进对其他token的估计。过程结束时，模型在一个大块中最终确定其token输出——即“去噪”后的文本画布。</p> <figure class="video ars-wp-video ars-wp-video--horizontal"> <div class="" style=""> <div class="wrapper ars-wp-video-wrapper relative" style="aspect-ratio: 1.7732656514382;"> <video class="wp-video-shortcode absolute w-full h-full object-contain left-0 top-0" id="video-2158841-1" width="2096" height="1182" preload="metadata" controls="controls"><source type="video/mp4" src="https://cdn.arstechnica.net/wp-content/uploads/2026/06/Diffusion_Process_3_1.mp4?_=1"></source></video> </div> <figcaption> <span class="icon caption-arrow icon-drop-indicator"></span> </figcaption> </div> </figure> <p>在谷歌开源模型中，DiffusionGemma相当庞大。它是一个混合专家（MoE）模型，总共有260亿个参数，但推理时只激活38亿个参数。这意味着它应该能适配高端GPU的18GB显存。在RTX 5090的测试中，DiffusionGemma每秒生成约700个token。使用单个Nvidia H100 AI加速器时，DiffusionGemma每秒可生成1000多个token。这大约是同等规模自回归Gemma模型输出速度的四倍。</p><p><a href="https://arstechnica.com/google/2026/06/googles-latest-diffusiongemma-open-ai-model-comes-with-a-4x-speed-boost/">阅读全文</a></p> <p><a href="https://arstechnica.com/google/2026/06/googles-latest-diffusiongemma-open-ai-model-comes-with-a-4x-speed-boost/#comments">评论</a></p>

查看原文

查看缓存全文

缓存时间: 2026/06/10 20:46

# Google 最新 DiffusionGemma 开源 AI 模型带来 4 倍速度提升来源：https://arstechnica.com/google/2026/06/googles-latest-diffusiongemma-open-ai-model-comes-with-a-4x-speed-boost/ ## 本地高效处理的多种路径如果扩散模型如此之快，为什么 Google 不在大型云基础 Gemini 模型中使用它？Google 对此进行过实验（https://arstechnica.com/gadgets/2025/05/gemini-2-5-is-leaving-preview-just-in-time-for-googles-new-250-ai-subscription/），但文本扩散存在一些缺点，包括较高的错误率。在图像扩散模型中，单个预测错误的像素并不会使图像失效，但语言是离散的。文本中的类似错误可能使一整个 token 块变得毫无意义，迫使你从头再来以获得更好的输出。扩散模型在所需输出只有少量 token 时也会浪费资源。它们需要做大量并行工作才能将输出缩减到例如五个 token，而自回归模型从头到尾只需五步即可完成。 [](https://cdn.arstechnica.net/wp-content/uploads/2026/06/updated-Intelligence_vs_Latency_.width-1000.format-webp.png) DiffusionGemma 的能力与其他 Gemma 模型相当，但速度更快。图片来源：Google DiffusionGemma 的能力与其他 Gemma 模型相当，但速度更快。图片来源：Google 然而，本地处理带来的效率提升使其成为一条值得探索的路径。在云端，自回归模型可以将来自多个用户的大量计算任务分批处理，从而始终输出 token，并且这些系统中使用的高带宽内存（HBM）可以更高效地移动数据。相比之下，本地 AI 由于内存带宽较低和空闲时间的存在，会遭遇计算周期浪费。扩散模型可以更有效地利用可用算力，但这并非唯一途径。Google 最近也开始实现多 token 预测（Multi-Token Prediction，MTP）（https://arstechnica.com/ai/2026/05/googles-gemma-4-open-ai-models-use-speculative-decoding-to-get-up-to-3x-faster/）草稿器，利用原本闲置的计算周期来预测可能的 token，从而提升速度。但扩散模型甚至比 Gemma 的 MTP 版本还要快。 Google 强调 DiffusionGemma 仍处于实验阶段，但它与所有其他第四代 Gemma 模型一样，采用 Apache 2.0 许可证开放。你可以从 Hugging Face（https://huggingface.co/google/diffusiongemma-26B-A4B-it）立即下载模型权重。Google 表示，其与 Nvidia 合作，确保 DiffusionGemma 针对多种配置进行了优化，包括高端 RTX GPU（量化版本）以及 H100 或 DGX Spark 平台等企业级系统。

谷歌最新DiffusionGemma开源AI模型速度提升4倍

相似文章

DiffusionGemma: 文本生成速度提升4倍

DiffusionGemma

NVIDIA 加速 Google DeepMind 的 DiffusionGemma 以支持本地 AI

google/diffusiongemma-26B-A4B-it

@volokuleshov: 恭喜谷歌开源Gemma Diffusion！我想特别感谢一组非常有才华的康奈尔大学学生，他们在实验室开发了这个模型中许多新想法：

提交意见反馈