@zhixianio: 试完了,感觉还挺大跌眼镜的,不知道是不是我打开的方式不对,欢迎大家给出反例。接下来是我测的结果: 在 M5 Max 上,拿这个社区微调版 gemma-4-12B-coder (llama.cpp)对打我日常在用的 Qwen3.6-35B-…
摘要
用户测试了社区微调版 gemma-4-12B-coder 与 Qwen3.6-35B-A3B MoE 在三个编程任务上的表现,发现 gemma 在复杂有状态程序上表现不佳,而 Qwen 35B 依然稳健。
查看缓存全文
缓存时间: 2026/06/15 15:07
试完了,感觉还挺大跌眼镜的,不知道是不是我打开的方式不对,欢迎大家给出反例。接下来是我测的结果:
在 M5 Max 上,拿这个社区微调版 gemma-4-12B-coder (llama.cpp)对打我日常在用的 Qwen3.6-35B-A3B MoE(oMLX)。三个任务:
matplotlib 数据图表 → 打平,两个都一次跑对、规范齐全
three.js 星系粒子特效 → Qwen 给出能旋转能缩放的星系;gemma 直接黑屏(漏了 importmap、CDN 版本号还打错一位、粒子尺寸小到看不见,三个 bug 叠一起)
一个完整可玩的俄罗斯方块 → Qwen 真能玩(下落 / 消行 / 计分到 117 / Next 预览全有);gemma 的方块压根不往下掉,分数一直挂 0
视频:左 = 俄罗斯方块对比,右 = 星系特效对比
后面又把原版 gemma-4-12B-it(同样 4-bit 量化)下下来跑同一个 Tetris → 照样崩(空棋盘、分数 NaN、消行数乱跳)。说明瓶颈是 12B 这个体量撑不住「长篇、有状态、一次成型」的复杂程序,跟微调无关。
还挖到个有意思的点:原版开思考模式后,12000 token 全在「想」,一行代码没吐;反而 coder 微调版学会了「想一下就动手」。微调提升的是收敛 / 效率,但抬不高 12B 的天花板。
我的 Qwen 35B 依然稳坐甜点宝座
Hugging Models (@HuggingModels): Gemma 4 12B Coder is here and it’s a game changer for local code generation. This GGUF model packs Google’s latest gemma-4 architecture into a compact 12B size, perfect for running on consumer hardware. It’s optimized for reasoning and thinking, making it ideal for developers who
相似文章
Gemma 4 击败 Qwen 3.5(更新),Qwen 3.6 27B + MiniMax M2.7 是最佳 OpenCode 组合
个人基准显示:Gemma-4E4B 在路由任务上称王,Qwen-3.6 27/30B 编码力压 Gemma-4,而 MiniMax M2.7 MXFP4 在 OpenCode 的 llama-swap 工作流中取代巨型 Qwen-3.5 量化模型。
Qwen3.6:27b 一次尝试即修复了 CSS UI 错误,而 Gemma4:26B 却无用空转了 15 分钟
用户分享了一份详细的本地编码性能对比,指出 Qwen3.6-27B 仅用一次尝试就修复了 CSS 错误,而 Gemma4-26B 则陷入了递归错误循环。该帖子强调了在 Apple Silicon 硬件上密集模型(Dense models)与混合专家模型(MoE)之间的权衡。
gemma-4-12b-it vs Qwen3.5-9B 在共同基准测试中的对比:Qwen 在 5/8 项基准测试中击败 gemma,虽体积更小但总体胜出
Qwen3.5-9B 在 8 项基准测试中的 5 项中优于 gemma-4-12b-it,尽管模型体积更小。gemma 仅在编程能力上略胜一筹。
通俗版对比:Qwen3.6 35b-a3b 与 Gemma4-26b-a4b-it
Gemma 4-26b-a4b-it 基本是个基础扎实、能稳妥完成任务的 B 等生。Qwen3.6-35b-a3b 则是考出 A+ 的优等生,做完任务后还有余力搞点锦上添花的发挥。在我的 16GB 显存显卡上,两款模型运行速度相当。测试环境为 Windows 下的 LM Studio,采用推荐推理设置。使用的模型:unsloth/gemma-4-26B-A4B-it-UD-Q4_K_S 与 AesSedai/Qwen3.6-35B-A3B IQ4_XS。大家有不同意见吗?**更新:** 看来我之前用 Gemma 4 的方式不太对。[Sadman782 的评论](https://www.redd
我在 MacBook Air M5 上对 21 款本地大模型进行了代码质量与速度的性能评测
一位开发者在 MacBook Air M5 上使用 HumanEval+ 对 21 款本地大模型进行了基准测试,发现 Qwen 3.6 35B-A3B (MoE) 以 89.6% 的得分和 16.9 tok/s 的速度位居榜首,而 Qwen 2.5 Coder 7B 仅需 4.5 GB 内存即可达到 84.2% 的性能,拥有最佳的内存性价比。值得注意的是,Gemma 4 系列的表现远低于预期(31B 版本仅得 31.1%),这可能是受 Q4_K_M 量化策略的影响。