@witcheer:Gemma 4 发布了一个12B版本。我将其放在RTX 5090上与31B的兄弟型号进行对比。当你把一个模型从31B裁剪到12B时,你到底失去了什么……
摘要
对Gemma 4 12B和31B模型的对比显示,较小的模型几乎完整保留了推理能力,但知识储备大幅下降,使其成为推理任务的理想选择,而较大的模型则更适合广泛知识的问答。
查看缓存全文
缓存时间: 2026/06/04 04:00
Gemma 4 发布了 12B 版本。
我将其放在 RTX 5090 上与其 31B 兄弟模型进行了对比。
当你把一个模型从 31B 缩减到 12B,你到底失去了什么?
~ 推理几乎不受影响
GSM8K(数学)97.5 > 96.4 (↓1.1)
ARC-C(科学推理)97.6 > 94.0 (↓3.6)
~ 知识断崖式下跌
MMLU(世界知识)87.8 > 78.9 (↓8.9)
HellaSwag(常识推理)92.0 > 81.6 (↓10.4)
参数存储的是事实,而非思考能力。你删除的那 19B 参数,大部分是模型存放琐事和世界先验知识的地方,去掉之后回忆能力崩溃,而推理机制几乎完好无损。
12B 的推理能力几乎与其大哥相当,只是知识储备更少。
122 tok/s 对比 53(生成速度快 2.3 倍),显存占用约 10GB 而非约 24GB,这意味着在 32GB 显卡上你能省出 20GB+ 用于长上下文或运行第二个模型。
因此,取决于你的工作负载:
推理 / 数学 / 智能体循环 = 12B 几乎免费
无检索的广域知识问答 = 这才是唯一值得为 31B 付费的任务。
相似文章
Gemma 4 31B 的能力让我惊讶
一位用户分享了轶事发现:Gemma 4 31B 在理解和重构杂乱的学术代码方面优于 Qwen 3.6 模型,并与 Opus 4.7 能力相当,还突出了一个 Gemma 擅长的基准测试(SciCode)。
全新Google Gemma 4 12B自称性能接近26B模型——我们实测了这两款!
Google全新Gemma 4 12B模型宣称性能接近26B模型。在RTX 4090的本地测试中,26B-A4B模型更快且表现更佳,但12B模型显存占用更少,适合笔记本电脑使用。
昨天在我的3090上跑了gemma 4 12b,我觉得本地模型领域已经变了
一位用户报告称,通过GGUF量化在单张RTX 3090上本地运行了谷歌的Gemma 4 12B模型,发现其性能强劲,包括真实的256k上下文、多模态能力以及函数调用功能,在编码任务上甚至优于更大的70B模型。
gemma-4-12b-it vs Qwen3.5-9B 在共同基准测试中的对比:Qwen 在 5/8 项基准测试中击败 gemma,虽体积更小但总体胜出
Qwen3.5-9B 在 8 项基准测试中的 5 项中优于 gemma-4-12b-it,尽管模型体积更小。gemma 仅在编程能力上略胜一筹。
关于Gemma4 12b与26a4b的思考,哪个更好?
讨论Gemma4 12b和26a4b变体的比较,重点放在写作和聊天等创意任务上。