Gemma 4 31B 的能力让我惊讶
摘要
一位用户分享了轶事发现:Gemma 4 31B 在理解和重构杂乱的学术代码方面优于 Qwen 3.6 模型,并与 Opus 4.7 能力相当,还突出了一个 Gemma 擅长的基准测试(SciCode)。
我刚开始在编码中使用本地 LLM。我对 vibe coding 不感兴趣,但我希望在学术界这个“不发表就灭亡”的世界里提高自己的生产力。我过去项目中的现有代码一团糟,LLM 常常无法理解我的代码,因为我使用小众模型,很少写注释,而且有时会有误导性的变量名,LLM 会过度关注这些名字(如果我在学习新信息时重新设计,可能不会在改变变量用途时重命名它们)。因此,我以非常谨慎的步伐尝试将本地 LLM 融入我的编码工作流程。在[一个早期测试](https://github.com/nathanlgabriel/paper\\_code\\_mapping\\_assessment)中,我评估了本地模型能否简单地解释代码如何实现论文中描述的模型,结果 Qwen 3.6 模型表现突出。因此,在一个扩展我论文中旧乱码代码的测试项目中,我非常惊讶地发现 Gemma 4 31b 明显优于 Qwen 3.6(无论是 27b 模型还是 35b a3b 模型),而 Opus 4.7 评估其性能基本上与自身持平。[这个仓库](https://github.com/nathanlgabriel/local\\_LLM\\_transitive\\_inf\\_assessment/tree/main)详细介绍了这个项目。我的主要收获是:Gemma 4 31b 在真正理解我的代码各部分如何配合方面表现出色,它知道如果改变一个东西,会如何影响代码的其他部分。Qwen 3.6 模型则感觉过于热心;它们经常重写我提供的文件并附上修改计划,还要求访问工作目录之外的内容。Qwen 3.6 27b 确实发现了一个我的代码中可以改进的地方,这一点 Gemma 和 Opus 都忽略了,但它是在一个子组件上,该组件在我提供的笔记本中没有被使用,而且这个改进完全是局部的,不需要理解一个地方的更改需要另一个地方做出相应更改。这一切都是轶事,我一开始并没有打算发帖。有些模型的提示与其他模型略有不同,但性能差异如此出乎我的意料,以至于我不得不发帖,并且很想知道其他人是否有类似经历?有没有人知道哪些基准测试可以衡量我在模型中寻找的这类能力?大多数基准测试似乎都显示 Qwen 优于 Gemma。我确实看到 SciCode 基准测试是 Gemma 击败 Qwen 的一个,我想知道这是否是我未来应该关注的基准测试。我不知道我是否在描述中找对了模型的特征,所以我想听听其他人的想法。
相似文章
Gemma 4 12B 是我的新主力
作者分享了从 Qwen 3.6 切换到 Gemma 4 12B(Unsloth Q5_K_XL)进行本地编程的体验,称赞其即插即用的设置、更好的语法准确性以及可控的 VRAM 使用,尽管在速度上略有取舍。
gemma-4-12b-it vs Qwen3.5-9B 在共同基准测试中的对比:Qwen 在 5/8 项基准测试中击败 gemma,虽体积更小但总体胜出
Qwen3.5-9B 在 8 项基准测试中的 5 项中优于 gemma-4-12b-it,尽管模型体积更小。gemma 仅在编程能力上略胜一筹。
Gemma 4 击败 Qwen 3.5(更新),Qwen 3.6 27B + MiniMax M2.7 是最佳 OpenCode 组合
个人基准显示:Gemma-4E4B 在路由任务上称王,Qwen-3.6 27/30B 编码力压 Gemma-4,而 MiniMax M2.7 MXFP4 在 OpenCode 的 llama-swap 工作流中取代巨型 Qwen-3.5 量化模型。
Qwen 35b a3b 令我惊喜
用户报告了使用 Qwen 35b a3b 进行代理编码任务的积极体验,指出在其使用场景中它优于 Gemma4 26b,并且在演示/数据分析方面表现出色,尤其是在代理模式而非聊天模式下。
喜欢 Gemma4 模型的朋友们——你们都是怎么用的?
一位开发者分享了在本地运行 Gemma4 和 Qwen 进行编程任务的复杂体验,指出了工具集成、循环处理和任务完成方面存在的问题,并向社区寻求更优化的使用策略。