@witcheer：Gemma 4 发布了一个12B版本。我将其放在RTX 5090上与31B的兄弟型号进行对比。当你把一个模型从31B裁剪到12B时，你到底失去了什么……

X AI KOLs Timeline 2026/06/03 19:42 模型

gemma-4 model-comparison benchmarking reasoning knowledge parameters scaling

摘要

对Gemma 4 12B和31B模型的对比显示，较小的模型几乎完整保留了推理能力，但知识储备大幅下降，使其成为推理任务的理想选择，而较大的模型则更适合广泛知识的问答。

Gemma 4 发布了一个12B版本。我将其放在RTX 5090上与31B的兄弟型号进行对比。当你把一个模型从31B裁剪到12B时，你到底失去了什么？ ~ 推理几乎无损 GSM8K（数学）97.5 > 96.4 (−1.1) ARC-C（科学推理）97.6 > 94.0 (−3.6) ~ 知识悬崖式下跌 MMLU（世界知识）87.8 > 78.9 (−8.9) HellaSwag（常识）92.0 > 81.6 (−10.4) ~~~ 参数存储的是事实，而非思考。你删除的19B参数主要是模型存储琐事和先验知识的部分，削减后召回能力崩溃，而推理机制几乎保持完整。 a 12B版本的推理能力几乎与其大哥相当。只是知道得更少。 122 tok/s vs 53（生成速度提升2.3倍），显存占用约10GB而非24GB，这意味着在32GB显卡上你可以腾出20GB+用于长上下文或运行第二个模型。因此，这取决于你的工作负载：推理/数学/智能体循环 = 12B版本几乎免费可用无检索的广泛知识问答 = 这是唯一值得为31B版本买单的任务。

查看原文

查看缓存全文

缓存时间: 2026/06/04 04:00

Gemma 4 发布了 12B 版本。
我将其放在 RTX 5090 上与其 31B 兄弟模型进行了对比。

当你把一个模型从 31B 缩减到 12B，你到底失去了什么？

~ 推理几乎不受影响
GSM8K（数学）97.5 > 96.4 (↓1.1)
ARC-C（科学推理）97.6 > 94.0 (↓3.6)

~ 知识断崖式下跌
MMLU（世界知识）87.8 > 78.9 (↓8.9)
HellaSwag（常识推理）92.0 > 81.6 (↓10.4)

参数存储的是事实，而非思考能力。你删除的那 19B 参数，大部分是模型存放琐事和世界先验知识的地方，去掉之后回忆能力崩溃，而推理机制几乎完好无损。

12B 的推理能力几乎与其大哥相当，只是知识储备更少。

122 tok/s 对比 53（生成速度快 2.3 倍），显存占用约 10GB 而非约 24GB，这意味着在 32GB 显卡上你能省出 20GB+ 用于长上下文或运行第二个模型。

因此，取决于你的工作负载：

推理 / 数学 / 智能体循环 = 12B 几乎免费

无检索的广域知识问答 = 这才是唯一值得为 31B 付费的任务。

@witcheer：Gemma 4 发布了一个12B版本。我将其放在RTX 5090上与31B的兄弟型号进行对比。当你把一个模型从31B裁剪到12B时，你到底失去了什么……

相似文章

重建Gemma 4 31b……更好……压缩为26b……

Gemma 4 31B 的能力让我惊讶

Gemma 4 26b a4b 确实是我尝试过的最适合语言学习和科学查询的模型！

全新Google Gemma 4 12B自称性能接近26B模型——我们实测了这两款！

Gemma 4 技术报告

提交意见反馈