DiffusionGemma
摘要
Google 发布了 DiffusionGemma,这是一个采用 Apache 2 许可证的开源权重文本生成模型(总参数量 26B,活跃参数量 4B),通过 NVIDIA 的 NIM 云 API 展示了极高的推理速度。
暂无内容
查看缓存全文
缓存时间: 2026/06/10 21:45
# DiffusionGemma
来源:https://simonwillison.net/2026/Jun/10/diffusiongemma/
2026年6月10日 - 链接博客
**DiffusionGemma (https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation/)**(通过 (https://news.ycombinator.com/item?id=48478471))去年5月,Google短暂发布了一款实验性的Gemini Diffusion模型。我当时预览了它 (https://simonwillison.net/2025/May/21/gemini-diffusion/),记录其运行速度为857 tokens/秒。这是一款令人兴奋的模型,但Google之后没有再做任何后续公告。
如今,这项研究以最好的方式回归了:作为一款新的开放权重(Apache 2许可)Gemma模型——google/diffusiongemma-26B-A4B-it (https://huggingface.co/google/diffusiongemma-26B-A4B-it)。
NVIDIA目前正在其NIM云API上免费托管该模型 (https://build.nvidia.com/google/diffusiongemma-26b-a4b-it)。我使用该API生成了这只鹈鹕 (https://tools.simonwillison.net/markdown-svg-renderer#url=https%3A%2F%2Fgist.github.com%2Fsimonw%2Fe5e234a6dc6eef61e209ce1629620042),生成2409个token耗时4.4秒(根据`time uv run generate.py`),因此至少达到500 tokens/秒。
一只白色鹈鹕的扁平极简插画,拥有巨大的橙色喙,骑着一辆带黑色轮子的红色自行车,背景为淡蓝色,有一条代表地面的绿色线条
发布于2026年6月10日 (https://simonwillison.net/2026/Jun/10/) 晚上8点
## 近期文章
- Claude Fable 5 初印象 (https://simonwillison.net/2026/Jun/9/claude-fable-5/) - 2026年6月9日
- 在MicroPython和WASM沙箱中运行Python代码 (https://simonwillison.net/2026/Jun/6/micropython-in-a-sandbox/) - 2026年6月6日
- Claude Opus 4.8:“适度但切实的改进” (https://simonwillison.net/2026/May/28/claude-opus-4-8/) - 2026年5月28日
这是一篇由Simon Willison撰写的**链接博客**,发布于2026年6月10日 (https://simonwillison.net/2026/Jun/10/)。
google412 (https://simonwillison.net/tags/google/) ai2,065 (https://simonwillison.net/tags/ai/) generative-ai1,823 (https://simonwillison.net/tags/generative-ai/) llms1,791 (https://simonwillison.net/tags/llms/) nvidia18 (https://simonwillison.net/tags/nvidia/) pelican-riding-a-bicycle118 (https://simonwillison.net/tags/pelican-riding-a-bicycle/) gemma15 (https://simonwillison.net/tags/gemma/) llm-release205 (https://simonwillison.net/tags/llm-release/) llm-performance16 (https://simonwillison.net/tags/llm-performance/)
### 月度简报
每月赞助我**10美元**,即可获得当月最重要的LLM发展动态精选电子邮件摘要。
付钱给我,让你少收邮件!
赞助与订阅 (https://github.com/sponsors/simonw/)
相似文章
DiffusionGemma: 文本生成速度提升4倍
Google推出DiffusionGemma,这是一个实验性的26B MoE开源模型,通过文本扩散技术,在GPU上实现高达4倍的文本生成速度提升,针对速度要求高的交互式本地工作流。
谷歌最新DiffusionGemma开源AI模型速度提升4倍
谷歌发布了DiffusionGemma,这是一个实验性的开源文本生成扩散模型,相比自回归模型实现了4倍速度提升,并针对本地处理进行了优化。
google/diffusiongemma-26B-A4B-it
Google DeepMind 发布了 DiffusionGemma,这是一个 26B 参数的 Mixture-of-Experts 模型,使用离散扩散实现更快的文本生成,支持多模态输入和 256K token 上下文。
DiffusionGemma:开发者指南 - Google Developers Blog
DiffusionGemma 是 Google DeepMind 推出的全新实验模型,可在 256 令牌画布上实现并行生成,在 GPU 上令牌生成速度提升高达 4 倍。本开发者指南阐述了其架构、双向上下文,并提供了用于解决数独的微调配方。
@_philschmid: Gemma 迎来扩散模型!DiffusionGemma 每秒可处理高达1000+个token! - 基于Gemma 4构建,为26B MoE模型。 - 3.8B…
DiffusionGemma 是一个基于 Gemma 4 的 26B MoE 模型,通过扩散模型以256个token的块进行文本生成,每秒可处理超过1000个token,经量化后可在18GB显存内运行,已根据 Apache 2.0 许可发布。