@_philschmid: Gemma 迎来扩散模型!DiffusionGemma 每秒可处理高达1000+个token! - 基于Gemma 4构建,为26B MoE模型。 - 3.8B…

X AI KOLs Following 模型

摘要

DiffusionGemma 是一个基于 Gemma 4 的 26B MoE 模型,通过扩散模型以256个token的块进行文本生成,每秒可处理超过1000个token,经量化后可在18GB显存内运行,已根据 Apache 2.0 许可发布。

Gemma 迎来扩散模型!DiffusionGemma 每秒可处理高达1000+个token!🌬️ - 基于Gemma 4构建,为26B MoE模型。 - 推理时仅需3.8B参数。 - 以256个token的块并行生成文本。 - 量化后可在18GB显存内运行。 - Apache 2.0许可 https://t.co/rnQsdRNoD0
查看原文
查看缓存全文

缓存时间: 2026/06/10 17:53

Gemma 走向扩散!DiffusionGemma 每秒高达 1000+ 个 token!🌬️

  • 基于 Gemma 4 构建,为 26B MoE 模型。
  • 推理时仅 3.8B 参数。
  • 并行生成 256-token 块文本。
  • 量化后适配 18 GB VRAM 限制。
  • Apache 2.0 https://t.co/rnQsdRNoD0

相似文章

DiffusionGemma: 文本生成速度提升4倍

Hacker News Top

Google推出DiffusionGemma,这是一个实验性的26B MoE开源模型,通过文本扩散技术,在GPU上实现高达4倍的文本生成速度提升,针对速度要求高的交互式本地工作流。

DiffusionGemma

Simon Willison's Blog

Google 发布了 DiffusionGemma,这是一个采用 Apache 2 许可证的开源权重文本生成模型(总参数量 26B,活跃参数量 4B),通过 NVIDIA 的 NIM 云 API 展示了极高的推理速度。

DiffusionGemma:开发者指南 - Google Developers Blog

Reddit r/LocalLLaMA

DiffusionGemma 是 Google DeepMind 推出的全新实验模型,可在 256 令牌画布上实现并行生成,在 GPU 上令牌生成速度提升高达 4 倍。本开发者指南阐述了其架构、双向上下文,并提供了用于解决数独的微调配方。