DiffusionGemma: 文本生成速度提升4倍

Hacker News Top 2026/06/10 16:09 模型

google diffusion-gemma text-generation open-model mixture-of-experts fast-inference experimental

摘要

Google推出DiffusionGemma，这是一个实验性的26B MoE开源模型，通过文本扩散技术，在GPU上实现高达4倍的文本生成速度提升，针对速度要求高的交互式本地工作流。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/06/10 17:46

# DiffusionGemma：文本生成速度提升4倍来源：https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation/ 我们最新的开放实验模型在专用GPU上实现高达4倍的推理加速，为探索对速度敏感的交互式本地工作流打开了新的大门。 Sebastian Flennerhag 研究科学家 DiffusionGemma 您的浏览器不支持音频元素。听文章本内容由Google AI生成。生成式AI处于实验阶段 \[\[时长\]\] 分钟今天，我们推出DiffusionGemma，一个探索文本扩散的实验性开放模型，这是一种极其快速的文本生成方法。该模型采用Apache 2.0许可证发布，是一个26B参数的混合专家模型（MoE），超越了典型自回归大型语言模型（LLM）逐token顺序处理的方式。相反，它同时生成整个文本块，在GPU上实现高达4倍速的文本生成。 ## 智能 vs 延迟基于我们Gemma 4系列业界领先的智能-参数比以及前沿的Gemini Diffusion研究（https://deepmind.google/models/gemini-diffusion/），DiffusionGemma集成了一种新颖的扩散头，旨在最大化生成速度。虽然自回归的Gemma 4模型在高质量产品输出方面仍是标准，但DiffusionGemma专为探索速度敏感、交互式本地工作流的研究人员和开发者设计，例如内联编辑、快速迭代以及生成非线性的文本结构。 ## 为开发者解锁新价值构建实时交互式AI应用的开发者常常受困于本地推理的延迟瓶颈。DiffusionGemma直接应对这些挑战，同时伴随一些关键的权衡： - **极速推理：** 通过将解码瓶颈从内存带宽转移到计算，DiffusionGemma在专用GPU上的token输出速度提升高达4倍（单张NVIDIA H100上每秒超过1000个token，NVIDIA GeForce RTX 5090上每秒超过700个token）。¹（https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation/#footnote-1） - **可及的硬件门槛：** DiffusionGemma作为总参数量26B的混合专家模型（MoE），推理时仅激活3.8B参数，在量化后可以舒适地适配高端消费级GPU的18GB显存限制内。 - **双向注意力：** 每次前向传播并行生成256个token，使每个token都能关注所有其他token。这为非线性领域（如内联编辑、代码填充、氨基酸序列或数学图）提供了显著优势。 - **智能自我修正：** 模型迭代地优化自身输出，能够一次性评估整个文本块，实时修正错误。 - **实验状态与生产推荐：** 由于优先考虑速度和并行布局生成，DiffusionGemma的整体输出质量低于标准Gemma 4。对于要求最高质量的应用，我们建议部署标准Gemma 4。 DiffusionGemma基准测试你可以通过微调来提高DiffusionGemma在特定任务上的性能。在下面的例子中，Unsloth（https://unsloth.ai/docs/models/diffusiongemma）对DiffusionGemma进行了微调，使其能够玩数独——这是一项自回归模型难以处理的任务，因为每个token都依赖于未来的token。DiffusionGemma的双向注意力使其变得容易得多。微调后的DiffusionGemma解数独。 ## **为什么文本需要扩散？** 虽然AI研究社区多年来一直在探索基于扩散的文本生成，但将其应用于大型模型仍是一个挑战。DiffusionGemma通过改变模型使用硬件的方式改变了这一点。 ### **传统模型的权衡** 大多数语言模型像打字机一样，从左到右一次生成一个token。在云端，这很高效，因为服务器可以将数千个用户请求批量处理以共享硬件负载。但在本地为单个用户运行时，这种逐词过程会使你的专用GPU或TPU利用率不足——大部分时间只是等待下一次“按键”。 DiffusionGemma逆转了这种低效。它不按顺序预测单词，而是同时起草整个256个token的段落。通过让计算机处理器一次性处理更大的工作块，DiffusionGemma充分发挥了硬件的潜力。它将模型推理从单一的、顺序的打字机升级为大规模的印刷机，同时印出整个文本块。 Hugging Face的DiffusionGemma文本转3D SVG演示。逐步生成。这意味着DiffusionGemma的速度提升是为本地和低并发推理而设计的。在高QPS的云端服务中，自回归模型可以部署以充分利用计算资源，因此DiffusionGemma的并行解码带来的收益递减，并可能导致更高的服务成本。其吞吐量优势在单加速器的低到中等批量大小下最为显著。 ### **文本扩散如何工作** 类似于AI图像生成器从视觉噪声开始并迭代优化（https://research.google/blog/on-device-diffusion-plugins-for-conditioned-text-to-image-generation/）为清晰图像，DiffusionGemma将此应用于文本： 1. **画布：** 模型从一张由随机占位token组成的画布开始。 2. **迭代优化：** 模型进行多次迭代，锁定正确的token，并将其作为上下文线索来优化其余部分。 3. **最终抛光：** 文本收敛为高质量输出。由于模型可以在生成的同时处理整个段落，它解锁了新的模型行为模式，比如完美闭合复杂的Markdown格式，或近乎实时地生成和渲染代码。 ### **立即开始** - **下载权重：** 立即从Hugging Face获取实验模型权重（以宽松的Apache 2.0许可证发布）。 - **集成与学习：** 在我们的DiffusionGemma开发者指南（https://developers.googleblog.com/en/diffusiongemma-the-developer-guide）中了解更多。或者深入阅读《DiffusionGemma视觉指南》（https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-diffusiongemma），了解底层机制。 - **使用你喜欢的开发工具：** 使用MLX（https://huggingface.co/collections/mlx-community/diffusiongemma）、vLLM（https://vllm-project.github.io/2026/06/10/diffusion-gemma）（由Red Hat（https://huggingface.co/collections/RedHatAI/diffusiongemma-26b-a4b-it）支持集成）以及Hugging Face Transformers（https://huggingface.co/google/diffusiongemma-26B-A4B-it）高效服务模型。为了快速实验，我们发布了一个使用Hackable Diffusion（https://github.com/google/hackable_diffusion）（一个可组合的模块化JAX工具箱）的微调教程。你也可以使用Unsloth（https://unsloth.ai/docs/models/diffusiongemma）和NVIDIA NeMo（https://github.com/NVIDIA-NeMo/Automodel/blob/main/docs/guides/dllm/diffusiongemma.md）进行微调。此外，对llama.cpp的官方支持即将推出。 - **体验优化性能：** 我们与NVIDIA（https://blogs.nvidia.com/blog/rtx-ai-garage-local-gemma-diffusion）合作，在其硬件堆栈上进行优化，确保在消费级设备（为GeForce RTX 5090和4090 GPU量化）以及企业级系统（使用高级NVFP4内核的Hopper和Blackwell，包括NVIDIA DGX Spark和DGX Station用于本地桌面部署，以及RTX PRO面向AI专业人士）上的兼容性和高性能。对NVFP4（4位浮点数）的原生支持加速了计算吞吐量，使模型以更快速度运行且精度几乎无损。 - **自行尝试：** 在桌面专用GPU上运行，或通过Gemini Enterprise Agent Platform Model Garden（https://console.cloud.google.com/agent-platform/publishers/google/model-garden/diffusiongemma）或NVIDIA NIM（https://catalog.ngc.nvidia.com/orgs/nim/teams/google/containers/diffusiongemma-26b-a4b-it?version=latest）在云端运行。 ### 相关故事

DiffusionGemma: 文本生成速度提升4倍

相似文章

谷歌最新DiffusionGemma开源AI模型速度提升4倍

DiffusionGemma

@_philschmid: Gemma 迎来扩散模型！DiffusionGemma 每秒可处理高达1000+个token！ - 基于Gemma 4构建，为26B MoE模型。 - 3.8B…

DiffusionGemma：开发者指南 - Google Developers Blog

NVIDIA 加速 Google DeepMind 的 DiffusionGemma 以支持本地 AI

提交意见反馈