@_philschmid: Gemma 迎来扩散模型!DiffusionGemma 每秒可处理高达1000+个token! - 基于Gemma 4构建,为26B MoE模型。 - 3.8B…
摘要
DiffusionGemma 是一个基于 Gemma 4 的 26B MoE 模型,通过扩散模型以256个token的块进行文本生成,每秒可处理超过1000个token,经量化后可在18GB显存内运行,已根据 Apache 2.0 许可发布。
查看缓存全文
缓存时间: 2026/06/10 17:53
Gemma 走向扩散!DiffusionGemma 每秒高达 1000+ 个 token!🌬️
- 基于 Gemma 4 构建,为 26B MoE 模型。
- 推理时仅 3.8B 参数。
- 并行生成 256-token 块文本。
- 量化后适配 18 GB VRAM 限制。
- Apache 2.0 https://t.co/rnQsdRNoD0
相似文章
DiffusionGemma: 文本生成速度提升4倍
Google推出DiffusionGemma,这是一个实验性的26B MoE开源模型,通过文本扩散技术,在GPU上实现高达4倍的文本生成速度提升,针对速度要求高的交互式本地工作流。
@mervenoyann: DiffusionGemma 已发布,它受计算限制,因此相比其他 Gemma-4 模型快 4 倍(H100 上 1k tok/s),在……方面也很出色
DiffusionGemma 已发布;它受计算限制,比其它 Gemma-4 模型快 4 倍(H100 上 1k tok/s),擅长编码任务,包括 3D 生成和前端开发。
DiffusionGemma
Google 发布了 DiffusionGemma,这是一个采用 Apache 2 许可证的开源权重文本生成模型(总参数量 26B,活跃参数量 4B),通过 NVIDIA 的 NIM 云 API 展示了极高的推理速度。
@HuggingPapers:NVIDIA 刚刚在 Hugging Face 上发布了 NVFP4 量化的 DiffusionGemma——一个 26B MoE 多模态模型,通过并行扩散生成文本…
NVIDIA 在 Hugging Face 上发布了一个名为 DiffusionGemma 的 26B MoE 多模态模型,采用 NVFP4 量化,在 Hopper 硬件上达到每秒超过 1100 个 token 的速度。
DiffusionGemma:开发者指南 - Google Developers Blog
DiffusionGemma 是 Google DeepMind 推出的全新实验模型,可在 256 令牌画布上实现并行生成,在 GPU 上令牌生成速度提升高达 4 倍。本开发者指南阐述了其架构、双向上下文,并提供了用于解决数独的微调配方。