谷歌最新DiffusionGemma开源AI模型速度提升4倍

Ars Technica 模型

摘要

谷歌发布了DiffusionGemma,这是一个实验性的开源文本生成扩散模型,相比自回归模型实现了4倍速度提升,并针对本地处理进行了优化。

<p>又是一个新的一天,谷歌又发布了一个AI模型。这次,Google DeepMind推出了<a href="https://arstechnica.com/ai/2026/04/google-announces-gemma-4-open-ai-models-switches-to-apache-2-0-license/">Gemma 4开源模型家族</a>的新成员,但它与系列中其他模型有根本性的不同。DiffusionGemma不像大多数AI模型那样线性生成输出,而是能够并行生成整段文本。<a href="https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation/">谷歌表示</a>这使得它在本地硬件(如Nvidia DGX或普通的游戏GPU)上运行时更快、更高效。</p> <p>大多数AI模型被设计为自回归模型——从左到右逐个token生成文本。DiffusionGemma与图像生成模型有更多共同点,后者从静态开始,然后去噪以创建所需内容。该模型在一个画布上多次运行占位token字段,生成可能的token,并利用这些token改进对其他token的估计。过程结束时,模型在一个大块中最终确定其token输出——即“去噪”后的文本画布。</p> <figure class="video ars-wp-video ars-wp-video--horizontal"> <div class="" style=""> <div class="wrapper ars-wp-video-wrapper relative" style="aspect-ratio: 1.7732656514382;"> <video class="wp-video-shortcode absolute w-full h-full object-contain left-0 top-0" id="video-2158841-1" width="2096" height="1182" preload="metadata" controls="controls"><source type="video/mp4" src="https://cdn.arstechnica.net/wp-content/uploads/2026/06/Diffusion_Process_3_1.mp4?_=1"></source></video> </div> <figcaption> <span class="icon caption-arrow icon-drop-indicator"></span> </figcaption> </div> </figure> <p>在谷歌开源模型中,DiffusionGemma相当庞大。它是一个混合专家(MoE)模型,总共有260亿个参数,但推理时只激活38亿个参数。这意味着它应该能适配高端GPU的18GB显存。在RTX 5090的测试中,DiffusionGemma每秒生成约700个token。使用单个Nvidia H100 AI加速器时,DiffusionGemma每秒可生成1000多个token。这大约是同等规模自回归Gemma模型输出速度的四倍。</p><p><a href="https://arstechnica.com/google/2026/06/googles-latest-diffusiongemma-open-ai-model-comes-with-a-4x-speed-boost/">阅读全文</a></p> <p><a href="https://arstechnica.com/google/2026/06/googles-latest-diffusiongemma-open-ai-model-comes-with-a-4x-speed-boost/#comments">评论</a></p>
查看原文
查看缓存全文

缓存时间: 2026/06/10 20:46

# Google 最新 DiffusionGemma 开源 AI 模型带来 4 倍速度提升 来源:https://arstechnica.com/google/2026/06/googles-latest-diffusiongemma-open-ai-model-comes-with-a-4x-speed-boost/ ## 本地高效处理的多种路径 如果扩散模型如此之快,为什么 Google 不在大型云基础 Gemini 模型中使用它?Google 对此进行过实验(https://arstechnica.com/gadgets/2025/05/gemini-2-5-is-leaving-preview-just-in-time-for-googles-new-250-ai-subscription/),但文本扩散存在一些缺点,包括较高的错误率。在图像扩散模型中,单个预测错误的像素并不会使图像失效,但语言是离散的。文本中的类似错误可能使一整个 token 块变得毫无意义,迫使你从头再来以获得更好的输出。扩散模型在所需输出只有少量 token 时也会浪费资源。它们需要做大量并行工作才能将输出缩减到例如五个 token,而自回归模型从头到尾只需五步即可完成。 [](https://cdn.arstechnica.net/wp-content/uploads/2026/06/updated-Intelligence_vs_Latency_.width-1000.format-webp.png) DiffusionGemma 的能力与其他 Gemma 模型相当,但速度更快。 图片来源:Google DiffusionGemma 的能力与其他 Gemma 模型相当,但速度更快。图片来源:Google 然而,本地处理带来的效率提升使其成为一条值得探索的路径。在云端,自回归模型可以将来自多个用户的大量计算任务分批处理,从而始终输出 token,并且这些系统中使用的高带宽内存(HBM)可以更高效地移动数据。 相比之下,本地 AI 由于内存带宽较低和空闲时间的存在,会遭遇计算周期浪费。扩散模型可以更有效地利用可用算力,但这并非唯一途径。Google 最近也开始实现多 token 预测(Multi-Token Prediction,MTP)(https://arstechnica.com/ai/2026/05/googles-gemma-4-open-ai-models-use-speculative-decoding-to-get-up-to-3x-faster/)草稿器,利用原本闲置的计算周期来预测可能的 token,从而提升速度。但扩散模型甚至比 Gemma 的 MTP 版本还要快。 Google 强调 DiffusionGemma 仍处于实验阶段,但它与所有其他第四代 Gemma 模型一样,采用 Apache 2.0 许可证开放。你可以从 Hugging Face(https://huggingface.co/google/diffusiongemma-26B-A4B-it)立即下载模型权重。Google 表示,其与 Nvidia 合作,确保 DiffusionGemma 针对多种配置进行了优化,包括高端 RTX GPU(量化版本)以及 H100 或 DGX Spark 平台等企业级系统。

相似文章

DiffusionGemma: 文本生成速度提升4倍

Hacker News Top

Google推出DiffusionGemma,这是一个实验性的26B MoE开源模型,通过文本扩散技术,在GPU上实现高达4倍的文本生成速度提升,针对速度要求高的交互式本地工作流。

DiffusionGemma

Simon Willison's Blog

Google 发布了 DiffusionGemma,这是一个采用 Apache 2 许可证的开源权重文本生成模型(总参数量 26B,活跃参数量 4B),通过 NVIDIA 的 NIM 云 API 展示了极高的推理速度。

google/diffusiongemma-26B-A4B-it

Hugging Face Models Trending

Google DeepMind 发布了 DiffusionGemma,这是一个 26B 参数的 Mixture-of-Experts 模型,使用离散扩散实现更快的文本生成,支持多模态输入和 256K token 上下文。