谷歌最新DiffusionGemma开源AI模型速度提升4倍
摘要
谷歌发布了DiffusionGemma,这是一个实验性的开源文本生成扩散模型,相比自回归模型实现了4倍速度提升,并针对本地处理进行了优化。
<p>又是一个新的一天,谷歌又发布了一个AI模型。这次,Google DeepMind推出了<a href="https://arstechnica.com/ai/2026/04/google-announces-gemma-4-open-ai-models-switches-to-apache-2-0-license/">Gemma 4开源模型家族</a>的新成员,但它与系列中其他模型有根本性的不同。DiffusionGemma不像大多数AI模型那样线性生成输出,而是能够并行生成整段文本。<a href="https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation/">谷歌表示</a>这使得它在本地硬件(如Nvidia DGX或普通的游戏GPU)上运行时更快、更高效。</p>
<p>大多数AI模型被设计为自回归模型——从左到右逐个token生成文本。DiffusionGemma与图像生成模型有更多共同点,后者从静态开始,然后去噪以创建所需内容。该模型在一个画布上多次运行占位token字段,生成可能的token,并利用这些token改进对其他token的估计。过程结束时,模型在一个大块中最终确定其token输出——即“去噪”后的文本画布。</p>
<figure class="video ars-wp-video ars-wp-video--horizontal">
<div class="" style="">
<div class="wrapper ars-wp-video-wrapper relative" style="aspect-ratio: 1.7732656514382;">
<video class="wp-video-shortcode absolute w-full h-full object-contain left-0 top-0" id="video-2158841-1" width="2096" height="1182" preload="metadata" controls="controls"><source type="video/mp4" src="https://cdn.arstechnica.net/wp-content/uploads/2026/06/Diffusion_Process_3_1.mp4?_=1"></source></video>
</div>
<figcaption>
<span class="icon caption-arrow icon-drop-indicator"></span>
</figcaption>
</div>
</figure>
<p>在谷歌开源模型中,DiffusionGemma相当庞大。它是一个混合专家(MoE)模型,总共有260亿个参数,但推理时只激活38亿个参数。这意味着它应该能适配高端GPU的18GB显存。在RTX 5090的测试中,DiffusionGemma每秒生成约700个token。使用单个Nvidia H100 AI加速器时,DiffusionGemma每秒可生成1000多个token。这大约是同等规模自回归Gemma模型输出速度的四倍。</p><p><a href="https://arstechnica.com/google/2026/06/googles-latest-diffusiongemma-open-ai-model-comes-with-a-4x-speed-boost/">阅读全文</a></p>
<p><a href="https://arstechnica.com/google/2026/06/googles-latest-diffusiongemma-open-ai-model-comes-with-a-4x-speed-boost/#comments">评论</a></p>
查看缓存全文
缓存时间: 2026/06/10 20:46
# Google 最新 DiffusionGemma 开源 AI 模型带来 4 倍速度提升
来源:https://arstechnica.com/google/2026/06/googles-latest-diffusiongemma-open-ai-model-comes-with-a-4x-speed-boost/
## 本地高效处理的多种路径
如果扩散模型如此之快,为什么 Google 不在大型云基础 Gemini 模型中使用它?Google 对此进行过实验(https://arstechnica.com/gadgets/2025/05/gemini-2-5-is-leaving-preview-just-in-time-for-googles-new-250-ai-subscription/),但文本扩散存在一些缺点,包括较高的错误率。在图像扩散模型中,单个预测错误的像素并不会使图像失效,但语言是离散的。文本中的类似错误可能使一整个 token 块变得毫无意义,迫使你从头再来以获得更好的输出。扩散模型在所需输出只有少量 token 时也会浪费资源。它们需要做大量并行工作才能将输出缩减到例如五个 token,而自回归模型从头到尾只需五步即可完成。
[](https://cdn.arstechnica.net/wp-content/uploads/2026/06/updated-Intelligence_vs_Latency_.width-1000.format-webp.png)
DiffusionGemma 的能力与其他 Gemma 模型相当,但速度更快。
图片来源:Google
DiffusionGemma 的能力与其他 Gemma 模型相当,但速度更快。图片来源:Google
然而,本地处理带来的效率提升使其成为一条值得探索的路径。在云端,自回归模型可以将来自多个用户的大量计算任务分批处理,从而始终输出 token,并且这些系统中使用的高带宽内存(HBM)可以更高效地移动数据。
相比之下,本地 AI 由于内存带宽较低和空闲时间的存在,会遭遇计算周期浪费。扩散模型可以更有效地利用可用算力,但这并非唯一途径。Google 最近也开始实现多 token 预测(Multi-Token Prediction,MTP)(https://arstechnica.com/ai/2026/05/googles-gemma-4-open-ai-models-use-speculative-decoding-to-get-up-to-3x-faster/)草稿器,利用原本闲置的计算周期来预测可能的 token,从而提升速度。但扩散模型甚至比 Gemma 的 MTP 版本还要快。
Google 强调 DiffusionGemma 仍处于实验阶段,但它与所有其他第四代 Gemma 模型一样,采用 Apache 2.0 许可证开放。你可以从 Hugging Face(https://huggingface.co/google/diffusiongemma-26B-A4B-it)立即下载模型权重。Google 表示,其与 Nvidia 合作,确保 DiffusionGemma 针对多种配置进行了优化,包括高端 RTX GPU(量化版本)以及 H100 或 DGX Spark 平台等企业级系统。
相似文章
DiffusionGemma: 文本生成速度提升4倍
Google推出DiffusionGemma,这是一个实验性的26B MoE开源模型,通过文本扩散技术,在GPU上实现高达4倍的文本生成速度提升,针对速度要求高的交互式本地工作流。
DiffusionGemma
Google 发布了 DiffusionGemma,这是一个采用 Apache 2 许可证的开源权重文本生成模型(总参数量 26B,活跃参数量 4B),通过 NVIDIA 的 NIM 云 API 展示了极高的推理速度。
NVIDIA 加速 Google DeepMind 的 DiffusionGemma 以支持本地 AI
NVIDIA 优化了 Google DeepMind 的 DiffusionGemma——一个能并行生成 256 个令牌文本块的开放模型,在本地 RTX GPU、DGX Spark 和 DGX Station 系统上实现了高达 4 倍的性能提升。
google/diffusiongemma-26B-A4B-it
Google DeepMind 发布了 DiffusionGemma,这是一个 26B 参数的 Mixture-of-Experts 模型,使用离散扩散实现更快的文本生成,支持多模态输入和 256K token 上下文。
@omarsar0: 太棒了!我最近花了很多时间在研究扩散LLM上,所以这真是完美的时机。我觉得有……
Google DeepMind 发布了 DiffusionGemma,这是一个开放实验模型,以块的形式生成文本而非逐词生成,实现了自我修正和更快的输出。