全新Google Gemma 4 12B自称性能接近26B模型——我们实测了这两款！

Reddit r/LocalLLaMA 2026/06/03 22:25 模型

摘要

Google全新Gemma 4 12B模型宣称性能接近26B模型。在RTX 4090的本地测试中，26B-A4B模型更快且表现更佳，但12B模型显存占用更少，适合笔记本电脑使用。

我们在同一台RTX 4090上本地运行了这两款模型，并给它们分配了相同的任务：编写一个自包含的HTML5 Canvas动画，包含真实物理效果，所有代码集成在一个文件中，不依赖任何库。共三个场景：一个高尔顿板、两个方块碰撞墙壁、以及一个混沌三摆。输出结果：Gemma 4 26B-A4B：显存占用15 GB，生成6.9k tokens，速度138 tok/s；Gemma 4 12B：显存占用9 GB，生成8.9k tokens，速度80 tok/s。同属Gemma 4系列，但26B-A4B在每个场景中均胜出，且运行速度快约1.7倍——而它仅用了4B活跃参数。不过12B表现也非常接近，且显存占用几乎减半，这使其成为16 GB笔记本电脑的理想模型。

查看原文

全新Google Gemma 4 12B自称性能接近26B模型——我们实测了这两款！

相似文章

谷歌新推出的Gemma 4 12B模型旨在任何配备16GB RAM的笔记本电脑上运行

昨天在我的3090上跑了gemma 4 12b，我觉得本地模型领域已经变了

@analogalok: 我刚刚在我的 RTX 4060 上用 llama.cpp + CUDA 13.2 跑了 Google 全新的 Unsloth Gemma4 12B 密集 GGUF，每秒 21 个 token…

Gemma 4 QAT 基准测试结果（AMD 7900 XTX）：速度更快，显存占用更少，质量无损

@KanikaBK: Google刚刚投下了一颗AI重磅炸弹！一场十亿美元的游戏开始了。Gemma 4 12B在你的笔记本电脑上运行。16GB内存，那就是……

提交意见反馈