Gemma 4 31B 的能力让我惊讶

Reddit r/LocalLLaMA 2026/06/09 08:22 新闻

local-llms code-assistance gemma-4 qwen-3 academic-coding benchmarking comparison

摘要

一位用户分享了轶事发现：Gemma 4 31B 在理解和重构杂乱的学术代码方面优于 Qwen 3.6 模型，并与 Opus 4.7 能力相当，还突出了一个 Gemma 擅长的基准测试（SciCode）。

我刚开始在编码中使用本地 LLM。我对 vibe coding 不感兴趣，但我希望在学术界这个“不发表就灭亡”的世界里提高自己的生产力。我过去项目中的现有代码一团糟，LLM 常常无法理解我的代码，因为我使用小众模型，很少写注释，而且有时会有误导性的变量名，LLM 会过度关注这些名字（如果我在学习新信息时重新设计，可能不会在改变变量用途时重命名它们）。因此，我以非常谨慎的步伐尝试将本地 LLM 融入我的编码工作流程。在[一个早期测试](https://github.com/nathanlgabriel/paper\\_code\\_mapping\\_assessment)中，我评估了本地模型能否简单地解释代码如何实现论文中描述的模型，结果 Qwen 3.6 模型表现突出。因此，在一个扩展我论文中旧乱码代码的测试项目中，我非常惊讶地发现 Gemma 4 31b 明显优于 Qwen 3.6（无论是 27b 模型还是 35b a3b 模型），而 Opus 4.7 评估其性能基本上与自身持平。[这个仓库](https://github.com/nathanlgabriel/local\\_LLM\\_transitive\\_inf\\_assessment/tree/main)详细介绍了这个项目。我的主要收获是：Gemma 4 31b 在真正理解我的代码各部分如何配合方面表现出色，它知道如果改变一个东西，会如何影响代码的其他部分。Qwen 3.6 模型则感觉过于热心；它们经常重写我提供的文件并附上修改计划，还要求访问工作目录之外的内容。Qwen 3.6 27b 确实发现了一个我的代码中可以改进的地方，这一点 Gemma 和 Opus 都忽略了，但它是在一个子组件上，该组件在我提供的笔记本中没有被使用，而且这个改进完全是局部的，不需要理解一个地方的更改需要另一个地方做出相应更改。这一切都是轶事，我一开始并没有打算发帖。有些模型的提示与其他模型略有不同，但性能差异如此出乎我的意料，以至于我不得不发帖，并且很想知道其他人是否有类似经历？有没有人知道哪些基准测试可以衡量我在模型中寻找的这类能力？大多数基准测试似乎都显示 Qwen 优于 Gemma。我确实看到 SciCode 基准测试是 Gemma 击败 Qwen 的一个，我想知道这是否是我未来应该关注的基准测试。我不知道我是否在描述中找对了模型的特征，所以我想听听其他人的想法。

查看原文

Gemma 4 31B 的能力让我惊讶

相似文章

Gemma 4 26b a4b 确实是我尝试过的最适合语言学习和科学查询的模型！

对 Gemma 4 26b A4b 的赞赏

Gemma 4 12B 是我的新主力

gemma-4-12b-it vs Qwen3.5-9B 在共同基准测试中的对比：Qwen 在 5/8 项基准测试中击败 gemma，虽体积更小但总体胜出

Gemma 4 击败 Qwen 3.5（更新），Qwen 3.6 27B + MiniMax M2.7 是最佳 OpenCode 组合

提交意见反馈