DiffusionGemma: 文本生成速度提升4倍

Hacker News Top 模型

摘要

Google推出DiffusionGemma,这是一个实验性的26B MoE开源模型,通过文本扩散技术,在GPU上实现高达4倍的文本生成速度提升,针对速度要求高的交互式本地工作流。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/06/10 17:46

# DiffusionGemma:文本生成速度提升4倍 来源:https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation/ 我们最新的开放实验模型在专用GPU上实现高达4倍的推理加速,为探索对速度敏感的交互式本地工作流打开了新的大门。 Sebastian Flennerhag 研究科学家 DiffusionGemma 您的浏览器不支持音频元素。 听文章 本内容由Google AI生成。生成式AI处于实验阶段 \[\[时长\]\] 分钟 今天,我们推出DiffusionGemma,一个探索文本扩散的实验性开放模型,这是一种极其快速的文本生成方法。该模型采用Apache 2.0许可证发布,是一个26B参数的混合专家模型(MoE),超越了典型自回归大型语言模型(LLM)逐token顺序处理的方式。相反,它同时生成整个文本块,在GPU上实现高达4倍速的文本生成。 ## 智能 vs 延迟 基于我们Gemma 4系列业界领先的智能-参数比以及前沿的Gemini Diffusion研究(https://deepmind.google/models/gemini-diffusion/),DiffusionGemma集成了一种新颖的扩散头,旨在最大化生成速度。虽然自回归的Gemma 4模型在高质量产品输出方面仍是标准,但DiffusionGemma专为探索速度敏感、交互式本地工作流的研究人员和开发者设计,例如内联编辑、快速迭代以及生成非线性的文本结构。 ## 为开发者解锁新价值 构建实时交互式AI应用的开发者常常受困于本地推理的延迟瓶颈。DiffusionGemma直接应对这些挑战,同时伴随一些关键的权衡: - **极速推理:** 通过将解码瓶颈从内存带宽转移到计算,DiffusionGemma在专用GPU上的token输出速度提升高达4倍(单张NVIDIA H100上每秒超过1000个token,NVIDIA GeForce RTX 5090上每秒超过700个token)。¹(https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation/#footnote-1) - **可及的硬件门槛:** DiffusionGemma作为总参数量26B的混合专家模型(MoE),推理时仅激活3.8B参数,在量化后可以舒适地适配高端消费级GPU的18GB显存限制内。 - **双向注意力:** 每次前向传播并行生成256个token,使每个token都能关注所有其他token。这为非线性领域(如内联编辑、代码填充、氨基酸序列或数学图)提供了显著优势。 - **智能自我修正:** 模型迭代地优化自身输出,能够一次性评估整个文本块,实时修正错误。 - **实验状态与生产推荐:** 由于优先考虑速度和并行布局生成,DiffusionGemma的整体输出质量低于标准Gemma 4。对于要求最高质量的应用,我们建议部署标准Gemma 4。 DiffusionGemma基准测试 你可以通过微调来提高DiffusionGemma在特定任务上的性能。在下面的例子中,Unsloth(https://unsloth.ai/docs/models/diffusiongemma)对DiffusionGemma进行了微调,使其能够玩数独——这是一项自回归模型难以处理的任务,因为每个token都依赖于未来的token。DiffusionGemma的双向注意力使其变得容易得多。 微调后的DiffusionGemma解数独。 ## **为什么文本需要扩散?** 虽然AI研究社区多年来一直在探索基于扩散的文本生成,但将其应用于大型模型仍是一个挑战。DiffusionGemma通过改变模型使用硬件的方式改变了这一点。 ### **传统模型的权衡** 大多数语言模型像打字机一样,从左到右一次生成一个token。在云端,这很高效,因为服务器可以将数千个用户请求批量处理以共享硬件负载。但在本地为单个用户运行时,这种逐词过程会使你的专用GPU或TPU利用率不足——大部分时间只是等待下一次“按键”。 DiffusionGemma逆转了这种低效。它不按顺序预测单词,而是同时起草整个256个token的段落。通过让计算机处理器一次性处理更大的工作块,DiffusionGemma充分发挥了硬件的潜力。它将模型推理从单一的、顺序的打字机升级为大规模的印刷机,同时印出整个文本块。 Hugging Face的DiffusionGemma文本转3D SVG演示。逐步生成。 这意味着DiffusionGemma的速度提升是为本地和低并发推理而设计的。在高QPS的云端服务中,自回归模型可以部署以充分利用计算资源,因此DiffusionGemma的并行解码带来的收益递减,并可能导致更高的服务成本。其吞吐量优势在单加速器的低到中等批量大小下最为显著。 ### **文本扩散如何工作** 类似于AI图像生成器从视觉噪声开始并迭代优化(https://research.google/blog/on-device-diffusion-plugins-for-conditioned-text-to-image-generation/)为清晰图像,DiffusionGemma将此应用于文本: 1. **画布:** 模型从一张由随机占位token组成的画布开始。 2. **迭代优化:** 模型进行多次迭代,锁定正确的token,并将其作为上下文线索来优化其余部分。 3. **最终抛光:** 文本收敛为高质量输出。 由于模型可以在生成的同时处理整个段落,它解锁了新的模型行为模式,比如完美闭合复杂的Markdown格式,或近乎实时地生成和渲染代码。 ### **立即开始** - **下载权重:** 立即从Hugging Face获取实验模型权重(以宽松的Apache 2.0许可证发布)。 - **集成与学习:** 在我们的DiffusionGemma开发者指南(https://developers.googleblog.com/en/diffusiongemma-the-developer-guide)中了解更多。或者深入阅读《DiffusionGemma视觉指南》(https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-diffusiongemma),了解底层机制。 - **使用你喜欢的开发工具:** 使用MLX(https://huggingface.co/collections/mlx-community/diffusiongemma)、vLLM(https://vllm-project.github.io/2026/06/10/diffusion-gemma)(由Red Hat(https://huggingface.co/collections/RedHatAI/diffusiongemma-26b-a4b-it)支持集成)以及Hugging Face Transformers(https://huggingface.co/google/diffusiongemma-26B-A4B-it)高效服务模型。为了快速实验,我们发布了一个使用Hackable Diffusion(https://github.com/google/hackable_diffusion)(一个可组合的模块化JAX工具箱)的微调教程。你也可以使用Unsloth(https://unsloth.ai/docs/models/diffusiongemma)和NVIDIA NeMo(https://github.com/NVIDIA-NeMo/Automodel/blob/main/docs/guides/dllm/diffusiongemma.md)进行微调。此外,对llama.cpp的官方支持即将推出。 - **体验优化性能:** 我们与NVIDIA(https://blogs.nvidia.com/blog/rtx-ai-garage-local-gemma-diffusion)合作,在其硬件堆栈上进行优化,确保在消费级设备(为GeForce RTX 5090和4090 GPU量化)以及企业级系统(使用高级NVFP4内核的Hopper和Blackwell,包括NVIDIA DGX Spark和DGX Station用于本地桌面部署,以及RTX PRO面向AI专业人士)上的兼容性和高性能。对NVFP4(4位浮点数)的原生支持加速了计算吞吐量,使模型以更快速度运行且精度几乎无损。 - **自行尝试:** 在桌面专用GPU上运行,或通过Gemini Enterprise Agent Platform Model Garden(https://console.cloud.google.com/agent-platform/publishers/google/model-garden/diffusiongemma)或NVIDIA NIM(https://catalog.ngc.nvidia.com/orgs/nim/teams/google/containers/diffusiongemma-26b-a4b-it?version=latest)在云端运行。 ### 相关故事

相似文章

DiffusionGemma

Simon Willison's Blog

Google 发布了 DiffusionGemma,这是一个采用 Apache 2 许可证的开源权重文本生成模型(总参数量 26B,活跃参数量 4B),通过 NVIDIA 的 NIM 云 API 展示了极高的推理速度。

DiffusionGemma:开发者指南 - Google Developers Blog

Reddit r/LocalLLaMA

DiffusionGemma 是 Google DeepMind 推出的全新实验模型,可在 256 令牌画布上实现并行生成,在 GPU 上令牌生成速度提升高达 4 倍。本开发者指南阐述了其架构、双向上下文,并提供了用于解决数独的微调配方。