全新Google Gemma 4 12B自称性能接近26B模型——我们实测了这两款!
摘要
Google全新Gemma 4 12B模型宣称性能接近26B模型。在RTX 4090的本地测试中,26B-A4B模型更快且表现更佳,但12B模型显存占用更少,适合笔记本电脑使用。
我们在同一台RTX 4090上本地运行了这两款模型,并给它们分配了相同的任务:编写一个自包含的HTML5 Canvas动画,包含真实物理效果,所有代码集成在一个文件中,不依赖任何库。共三个场景:一个高尔顿板、两个方块碰撞墙壁、以及一个混沌三摆。输出结果:Gemma 4 26B-A4B:显存占用15 GB,生成6.9k tokens,速度138 tok/s;Gemma 4 12B:显存占用9 GB,生成8.9k tokens,速度80 tok/s。同属Gemma 4系列,但26B-A4B在每个场景中均胜出,且运行速度快约1.7倍——而它仅用了4B活跃参数。不过12B表现也非常接近,且显存占用几乎减半,这使其成为16 GB笔记本电脑的理想模型。
相似文章
谷歌新推出的Gemma 4 12B模型旨在任何配备16GB RAM的笔记本电脑上运行
谷歌发布Gemma 4 12B,这是一款紧凑型AI模型,专为仅需16GB RAM的本地笔记本使用而优化,具备多令牌预测以及针对文本、音频和图像的简化多模态能力。
@analogalok: 我刚刚在我的 RTX 4060 上用 llama.cpp + CUDA 13.2 跑了 Google 全新的 Unsloth Gemma4 12B 密集 GGUF,每秒 21 个 token…
Google 新推出的 Gemma 4 12B 是一个纯解码器 transformer,采用无编码器的多模态输入,在达到强大基准性能的同时,尺寸足够小,可以在廉价 GPU 上本地运行。它采用 Apache 2.0 许可证发布。
@KanikaBK: Google刚刚投下了一颗AI重磅炸弹!一场十亿美元的游戏开始了。Gemma 4 12B在你的笔记本电脑上运行。16GB内存,那就是……
Google发布了Gemma 4 12B,这是一个采用Apache 2.0许可证的开源多模态AI模型,可在拥有16GB内存的笔记本电脑上本地运行,面向企业边缘部署。
推出 Gemma 3
Google 推出了 Gemma 3,这是一套轻量级开源模型集合(1B、4B、12B、27B),设计用于在单个 GPU 或 TPU 上运行,支持 140+ 种语言、128k 上下文窗口和多模态功能。这些模型在保持高效性能的同时,性能超越了 Llama 3 和 DeepSeek-V3 等更大的竞品,适合边缘设备部署。
Gemma 4 26B 在单块 RTX 5090 上达到 600 Tok/s
一项基准测试显示,使用 vLLM 搭配 DFlash 投机解码,在单块 RTX 5090 上将 Gemma 4 26B 的推理速度提升至约 578 tokens/s,相比基线实现了 2.56 倍的加速。