全新Google Gemma 4 12B自称性能接近26B模型——我们实测了这两款!

Reddit r/LocalLLaMA 模型

摘要

Google全新Gemma 4 12B模型宣称性能接近26B模型。在RTX 4090的本地测试中,26B-A4B模型更快且表现更佳,但12B模型显存占用更少,适合笔记本电脑使用。

我们在同一台RTX 4090上本地运行了这两款模型,并给它们分配了相同的任务:编写一个自包含的HTML5 Canvas动画,包含真实物理效果,所有代码集成在一个文件中,不依赖任何库。共三个场景:一个高尔顿板、两个方块碰撞墙壁、以及一个混沌三摆。输出结果:Gemma 4 26B-A4B:显存占用15 GB,生成6.9k tokens,速度138 tok/s;Gemma 4 12B:显存占用9 GB,生成8.9k tokens,速度80 tok/s。同属Gemma 4系列,但26B-A4B在每个场景中均胜出,且运行速度快约1.7倍——而它仅用了4B活跃参数。不过12B表现也非常接近,且显存占用几乎减半,这使其成为16 GB笔记本电脑的理想模型。
查看原文

相似文章

推出 Gemma 3

Google DeepMind Blog

Google 推出了 Gemma 3,这是一套轻量级开源模型集合(1B、4B、12B、27B),设计用于在单个 GPU 或 TPU 上运行,支持 140+ 种语言、128k 上下文窗口和多模态功能。这些模型在保持高效性能的同时,性能超越了 Llama 3 和 DeepSeek-V3 等更大的竞品,适合边缘设备部署。

Gemma 4 26B 在单块 RTX 5090 上达到 600 Tok/s

Reddit r/LocalLLaMA

一项基准测试显示,使用 vLLM 搭配 DFlash 投机解码,在单块 RTX 5090 上将 Gemma 4 26B 的推理速度提升至约 578 tokens/s,相比基线实现了 2.56 倍的加速。