@witcheer:Gemma 4 发布了一个12B版本。我将其放在RTX 5090上与31B的兄弟型号进行对比。当你把一个模型从31B裁剪到12B时,你到底失去了什么……

X AI KOLs Timeline 模型

摘要

对Gemma 4 12B和31B模型的对比显示,较小的模型几乎完整保留了推理能力,但知识储备大幅下降,使其成为推理任务的理想选择,而较大的模型则更适合广泛知识的问答。

Gemma 4 发布了一个12B版本。 我将其放在RTX 5090上与31B的兄弟型号进行对比。 当你把一个模型从31B裁剪到12B时,你到底失去了什么? ~ 推理几乎无损 GSM8K(数学)97.5 > 96.4 (−1.1) ARC-C(科学推理)97.6 > 94.0 (−3.6) ~ 知识悬崖式下跌 MMLU(世界知识)87.8 > 78.9 (−8.9) HellaSwag(常识)92.0 > 81.6 (−10.4) ~~~ 参数存储的是事实,而非思考。你删除的19B参数主要是模型存储琐事和先验知识的部分,削减后召回能力崩溃,而推理机制几乎保持完整。 a 12B版本的推理能力几乎与其大哥相当。只是知道得更少。 122 tok/s vs 53(生成速度提升2.3倍),显存占用约10GB而非24GB,这意味着在32GB显卡上你可以腾出20GB+用于长上下文或运行第二个模型。 因此,这取决于你的工作负载: 推理/数学/智能体循环 = 12B版本几乎免费可用 无检索的广泛知识问答 = 这是唯一值得为31B版本买单的任务。
查看原文
查看缓存全文

缓存时间: 2026/06/04 04:00

Gemma 4 发布了 12B 版本。
我将其放在 RTX 5090 上与其 31B 兄弟模型进行了对比。

当你把一个模型从 31B 缩减到 12B,你到底失去了什么?

~ 推理几乎不受影响
GSM8K(数学)97.5 > 96.4 (↓1.1)
ARC-C(科学推理)97.6 > 94.0 (↓3.6)

~ 知识断崖式下跌
MMLU(世界知识)87.8 > 78.9 (↓8.9)
HellaSwag(常识推理)92.0 > 81.6 (↓10.4)

参数存储的是事实,而非思考能力。你删除的那 19B 参数,大部分是模型存放琐事和世界先验知识的地方,去掉之后回忆能力崩溃,而推理机制几乎完好无损。

12B 的推理能力几乎与其大哥相当,只是知识储备更少。

122 tok/s 对比 53(生成速度快 2.3 倍),显存占用约 10GB 而非约 24GB,这意味着在 32GB 显卡上你能省出 20GB+ 用于长上下文或运行第二个模型。

因此,取决于你的工作负载:

推理 / 数学 / 智能体循环 = 12B 几乎免费

无检索的广域知识问答 = 这才是唯一值得为 31B 付费的任务。

相似文章

Gemma 4 31B 的能力让我惊讶

Reddit r/LocalLLaMA

一位用户分享了轶事发现:Gemma 4 31B 在理解和重构杂乱的学术代码方面优于 Qwen 3.6 模型,并与 Opus 4.7 能力相当,还突出了一个 Gemma 擅长的基准测试(SciCode)。