@mervenoyann: DiffusionGemma 已发布，它受计算限制，因此相比其他 Gemma-4 模型快 4 倍（H100 上 1k tok/s），在……方面也很出色

X AI KOLs Following 2026/06/10 16:55 模型

diffusion-gemma gemma-4 google compute-bound coding 3d-generation front-end

摘要

DiffusionGemma 已发布；它受计算限制，比其它 Gemma-4 模型快 4 倍（H100 上 1k tok/s），擅长编码任务，包括 3D 生成和前端开发。

DiffusionGemma 已发布 🔥 它受计算限制，因此相比其他 Gemma-4 模型快 4 倍（H100 上 1k tok/s）💨 在编码方面也很出色，可生成并迭代从 3D 生成到前端的任何代码 ⤵️ https://t.co/NAjEaml6dV

查看原文

查看缓存全文

缓存时间: 2026/06/10 17:53

DiffusionGemma 发布了 🔥

它是计算密集型模型，因此比其他 Gemma-4 模型快 4 倍（H100 上每秒 1000 token）💨

在编码方面也很出色，可以生成并迭代从 3D 生成到前端的任何代码 ⤵️ https://t.co/NAjEaml6dV

相似文章

Reddit r/LocalLLaMA

DiffusionGemma 的内部测试显示，在实际工作负载下，H100 与 A100 GPU 之间存在显著的性能差异；H100 在并发下的扩展性更好，且效率因工作负载类型而异，这引发了对基准测试可靠性的质疑。

X AI KOLs Following

DiffusionGemma 是一个基于 Gemma 4 的 26B MoE 模型，通过扩散模型以256个token的块进行文本生成，每秒可处理超过1000个token，经量化后可在18GB显存内运行，已根据 Apache 2.0 许可发布。

Reddit r/LocalLLaMA

报告了在四块AMD 7900 XTX GPU上使用vllm运行DiffusionGemma 26B，生成时达到100 tps，总时间约为45-60 t/s（包括提示处理等待时间），并分享了性能指标和设置命令。

Reddit r/LocalLLaMA

一位用户分享了他们在4090 GPU上通过vLLM运行DiffusionGemma 26B的经验，速度高达475t/s，但指出了单用户限制、准确度较低和上下文短等缺点，并认为它不值得替代常规的26B模型。

Hacker News Top

Google推出DiffusionGemma，这是一个实验性的26B MoE开源模型，通过文本扩散技术，在GPU上实现高达4倍的文本生成速度提升，针对速度要求高的交互式本地工作流。