@mervenoyann: DiffusionGemma 已发布,它受计算限制,因此相比其他 Gemma-4 模型快 4 倍(H100 上 1k tok/s),在……方面也很出色
摘要
DiffusionGemma 已发布;它受计算限制,比其它 Gemma-4 模型快 4 倍(H100 上 1k tok/s),擅长编码任务,包括 3D 生成和前端开发。
查看缓存全文
缓存时间: 2026/06/10 17:53
DiffusionGemma 发布了 🔥
它是计算密集型模型,因此比其他 Gemma-4 模型快 4 倍(H100 上每秒 1000 token)💨
在编码方面也很出色,可以生成并迭代从 3D 生成到前端的任何代码 ⤵️ https://t.co/NAjEaml6dV
相似文章
@_philschmid: Gemma 迎来扩散模型!DiffusionGemma 每秒可处理高达1000+个token! - 基于Gemma 4构建,为26B MoE模型。 - 3.8B…
DiffusionGemma 是一个基于 Gemma 4 的 26B MoE 模型,通过扩散模型以256个token的块进行文本生成,每秒可处理超过1000个token,经量化后可在18GB显存内运行,已根据 Apache 2.0 许可发布。
DiffusionGemma: 文本生成速度提升4倍
Google推出DiffusionGemma,这是一个实验性的26B MoE开源模型,通过文本扩散技术,在GPU上实现高达4倍的文本生成速度提升,针对速度要求高的交互式本地工作流。
Gemma 4 MTP 与 DFlash 在单张 H100 上:密集模型 vs MoE 模型结果
该基准测试将 Gemma 4 的多 Token 预测 (MTP) 与 z-lab 的 DFlash 推测性解码方法在单张 H100 GPU 上进行了比较,结果显示 MTP 在密集模型上更快,而 DFlash 在 MoE 模型上更快。
Gemma 4 26B 在单块 RTX 5090 上达到 600 Tok/s
一项基准测试显示,使用 vLLM 搭配 DFlash 投机解码,在单块 RTX 5090 上将 Gemma 4 26B 的推理速度提升至约 578 tokens/s,相比基线实现了 2.56 倍的加速。
@leopardracer: GEMMA 4 26B 在 RTX 4060 上运行,拥有 248K Token 上下文窗口,每秒 20 个 Token,上下文窗口大得可以……
Gemma 4 26B 在 RTX 4060 上运行,通过 llama.cpp 和 Q4_K_XL 量化实现 248K Token 上下文和每秒 20 Token 的速度,从而在消费级硬件上本地处理整个代码库。