DiffusionGemma: 文本生成速度提升4倍
摘要
Google推出DiffusionGemma,这是一个实验性的26B MoE开源模型,通过文本扩散技术,在GPU上实现高达4倍的文本生成速度提升,针对速度要求高的交互式本地工作流。
暂无内容
查看缓存全文
缓存时间: 2026/06/10 17:46
# DiffusionGemma:文本生成速度提升4倍
来源:https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation/
我们最新的开放实验模型在专用GPU上实现高达4倍的推理加速,为探索对速度敏感的交互式本地工作流打开了新的大门。
Sebastian Flennerhag
研究科学家
DiffusionGemma
您的浏览器不支持音频元素。
听文章
本内容由Google AI生成。生成式AI处于实验阶段
\[\[时长\]\] 分钟
今天,我们推出DiffusionGemma,一个探索文本扩散的实验性开放模型,这是一种极其快速的文本生成方法。该模型采用Apache 2.0许可证发布,是一个26B参数的混合专家模型(MoE),超越了典型自回归大型语言模型(LLM)逐token顺序处理的方式。相反,它同时生成整个文本块,在GPU上实现高达4倍速的文本生成。
## 智能 vs 延迟
基于我们Gemma 4系列业界领先的智能-参数比以及前沿的Gemini Diffusion研究(https://deepmind.google/models/gemini-diffusion/),DiffusionGemma集成了一种新颖的扩散头,旨在最大化生成速度。虽然自回归的Gemma 4模型在高质量产品输出方面仍是标准,但DiffusionGemma专为探索速度敏感、交互式本地工作流的研究人员和开发者设计,例如内联编辑、快速迭代以及生成非线性的文本结构。
## 为开发者解锁新价值
构建实时交互式AI应用的开发者常常受困于本地推理的延迟瓶颈。DiffusionGemma直接应对这些挑战,同时伴随一些关键的权衡:
- **极速推理:** 通过将解码瓶颈从内存带宽转移到计算,DiffusionGemma在专用GPU上的token输出速度提升高达4倍(单张NVIDIA H100上每秒超过1000个token,NVIDIA GeForce RTX 5090上每秒超过700个token)。¹(https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation/#footnote-1)
- **可及的硬件门槛:** DiffusionGemma作为总参数量26B的混合专家模型(MoE),推理时仅激活3.8B参数,在量化后可以舒适地适配高端消费级GPU的18GB显存限制内。
- **双向注意力:** 每次前向传播并行生成256个token,使每个token都能关注所有其他token。这为非线性领域(如内联编辑、代码填充、氨基酸序列或数学图)提供了显著优势。
- **智能自我修正:** 模型迭代地优化自身输出,能够一次性评估整个文本块,实时修正错误。
- **实验状态与生产推荐:** 由于优先考虑速度和并行布局生成,DiffusionGemma的整体输出质量低于标准Gemma 4。对于要求最高质量的应用,我们建议部署标准Gemma 4。
DiffusionGemma基准测试
你可以通过微调来提高DiffusionGemma在特定任务上的性能。在下面的例子中,Unsloth(https://unsloth.ai/docs/models/diffusiongemma)对DiffusionGemma进行了微调,使其能够玩数独——这是一项自回归模型难以处理的任务,因为每个token都依赖于未来的token。DiffusionGemma的双向注意力使其变得容易得多。
微调后的DiffusionGemma解数独。
## **为什么文本需要扩散?**
虽然AI研究社区多年来一直在探索基于扩散的文本生成,但将其应用于大型模型仍是一个挑战。DiffusionGemma通过改变模型使用硬件的方式改变了这一点。
### **传统模型的权衡**
大多数语言模型像打字机一样,从左到右一次生成一个token。在云端,这很高效,因为服务器可以将数千个用户请求批量处理以共享硬件负载。但在本地为单个用户运行时,这种逐词过程会使你的专用GPU或TPU利用率不足——大部分时间只是等待下一次“按键”。
DiffusionGemma逆转了这种低效。它不按顺序预测单词,而是同时起草整个256个token的段落。通过让计算机处理器一次性处理更大的工作块,DiffusionGemma充分发挥了硬件的潜力。它将模型推理从单一的、顺序的打字机升级为大规模的印刷机,同时印出整个文本块。
Hugging Face的DiffusionGemma文本转3D SVG演示。逐步生成。
这意味着DiffusionGemma的速度提升是为本地和低并发推理而设计的。在高QPS的云端服务中,自回归模型可以部署以充分利用计算资源,因此DiffusionGemma的并行解码带来的收益递减,并可能导致更高的服务成本。其吞吐量优势在单加速器的低到中等批量大小下最为显著。
### **文本扩散如何工作**
类似于AI图像生成器从视觉噪声开始并迭代优化(https://research.google/blog/on-device-diffusion-plugins-for-conditioned-text-to-image-generation/)为清晰图像,DiffusionGemma将此应用于文本:
1. **画布:** 模型从一张由随机占位token组成的画布开始。
2. **迭代优化:** 模型进行多次迭代,锁定正确的token,并将其作为上下文线索来优化其余部分。
3. **最终抛光:** 文本收敛为高质量输出。
由于模型可以在生成的同时处理整个段落,它解锁了新的模型行为模式,比如完美闭合复杂的Markdown格式,或近乎实时地生成和渲染代码。
### **立即开始**
- **下载权重:** 立即从Hugging Face获取实验模型权重(以宽松的Apache 2.0许可证发布)。
- **集成与学习:** 在我们的DiffusionGemma开发者指南(https://developers.googleblog.com/en/diffusiongemma-the-developer-guide)中了解更多。或者深入阅读《DiffusionGemma视觉指南》(https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-diffusiongemma),了解底层机制。
- **使用你喜欢的开发工具:** 使用MLX(https://huggingface.co/collections/mlx-community/diffusiongemma)、vLLM(https://vllm-project.github.io/2026/06/10/diffusion-gemma)(由Red Hat(https://huggingface.co/collections/RedHatAI/diffusiongemma-26b-a4b-it)支持集成)以及Hugging Face Transformers(https://huggingface.co/google/diffusiongemma-26B-A4B-it)高效服务模型。为了快速实验,我们发布了一个使用Hackable Diffusion(https://github.com/google/hackable_diffusion)(一个可组合的模块化JAX工具箱)的微调教程。你也可以使用Unsloth(https://unsloth.ai/docs/models/diffusiongemma)和NVIDIA NeMo(https://github.com/NVIDIA-NeMo/Automodel/blob/main/docs/guides/dllm/diffusiongemma.md)进行微调。此外,对llama.cpp的官方支持即将推出。
- **体验优化性能:** 我们与NVIDIA(https://blogs.nvidia.com/blog/rtx-ai-garage-local-gemma-diffusion)合作,在其硬件堆栈上进行优化,确保在消费级设备(为GeForce RTX 5090和4090 GPU量化)以及企业级系统(使用高级NVFP4内核的Hopper和Blackwell,包括NVIDIA DGX Spark和DGX Station用于本地桌面部署,以及RTX PRO面向AI专业人士)上的兼容性和高性能。对NVFP4(4位浮点数)的原生支持加速了计算吞吐量,使模型以更快速度运行且精度几乎无损。
- **自行尝试:** 在桌面专用GPU上运行,或通过Gemini Enterprise Agent Platform Model Garden(https://console.cloud.google.com/agent-platform/publishers/google/model-garden/diffusiongemma)或NVIDIA NIM(https://catalog.ngc.nvidia.com/orgs/nim/teams/google/containers/diffusiongemma-26b-a4b-it?version=latest)在云端运行。
### 相关故事
相似文章
谷歌最新DiffusionGemma开源AI模型速度提升4倍
谷歌发布了DiffusionGemma,这是一个实验性的开源文本生成扩散模型,相比自回归模型实现了4倍速度提升,并针对本地处理进行了优化。
DiffusionGemma
Google 发布了 DiffusionGemma,这是一个采用 Apache 2 许可证的开源权重文本生成模型(总参数量 26B,活跃参数量 4B),通过 NVIDIA 的 NIM 云 API 展示了极高的推理速度。
@_philschmid: Gemma 迎来扩散模型!DiffusionGemma 每秒可处理高达1000+个token! - 基于Gemma 4构建,为26B MoE模型。 - 3.8B…
DiffusionGemma 是一个基于 Gemma 4 的 26B MoE 模型,通过扩散模型以256个token的块进行文本生成,每秒可处理超过1000个token,经量化后可在18GB显存内运行,已根据 Apache 2.0 许可发布。
DiffusionGemma:开发者指南 - Google Developers Blog
DiffusionGemma 是 Google DeepMind 推出的全新实验模型,可在 256 令牌画布上实现并行生成,在 GPU 上令牌生成速度提升高达 4 倍。本开发者指南阐述了其架构、双向上下文,并提供了用于解决数独的微调配方。
NVIDIA 加速 Google DeepMind 的 DiffusionGemma 以支持本地 AI
NVIDIA 优化了 Google DeepMind 的 DiffusionGemma——一个能并行生成 256 个令牌文本块的开放模型,在本地 RTX GPU、DGX Spark 和 DGX Station 系统上实现了高达 4 倍的性能提升。