@_philschmid: Gemma 迎来扩散模型！DiffusionGemma 每秒可处理高达1000+个token！ - 基于Gemma 4构建，为26B MoE模型。 - 3.8B…

X AI KOLs Following 2026/06/10 16:24 模型

diffusion gemma moe text-generation parallel-inference apache-2.0 open-source

摘要

DiffusionGemma 是一个基于 Gemma 4 的 26B MoE 模型，通过扩散模型以256个token的块进行文本生成，每秒可处理超过1000个token，经量化后可在18GB显存内运行，已根据 Apache 2.0 许可发布。

Gemma 迎来扩散模型！DiffusionGemma 每秒可处理高达1000+个token！🌬️ - 基于Gemma 4构建，为26B MoE模型。 - 推理时仅需3.8B参数。 - 以256个token的块并行生成文本。 - 量化后可在18GB显存内运行。 - Apache 2.0许可 https://t.co/rnQsdRNoD0

查看原文

查看缓存全文

缓存时间: 2026/06/10 17:53

Gemma 走向扩散！DiffusionGemma 每秒高达 1000+ 个 token！🌬️

基于 Gemma 4 构建，为 26B MoE 模型。
推理时仅 3.8B 参数。
并行生成 256-token 块文本。
量化后适配 18 GB VRAM 限制。
Apache 2.0 https://t.co/rnQsdRNoD0

@_philschmid: Gemma 迎来扩散模型！DiffusionGemma 每秒可处理高达1000+个token！ - 基于Gemma 4构建，为26B MoE模型。 - 3.8B…

相似文章

DiffusionGemma: 文本生成速度提升4倍

@mervenoyann: DiffusionGemma 已发布，它受计算限制，因此相比其他 Gemma-4 模型快 4 倍（H100 上 1k tok/s），在……方面也很出色

DiffusionGemma

@HuggingPapers：NVIDIA 刚刚在 Hugging Face 上发布了 NVFP4 量化的 DiffusionGemma——一个 26B MoE 多模态模型，通过并行扩散生成文本…

DiffusionGemma：开发者指南 - Google Developers Blog

提交意见反馈