@zhixianio: 试完了，感觉还挺大跌眼镜的，不知道是不是我打开的方式不对，欢迎大家给出反例。接下来是我测的结果：在 M5 Max 上，拿这个社区微调版 gemma-4-12B-coder （llama.cpp）对打我日常在用的 Qwen3.6-35B-…

X AI KOLs Timeline 2026/06/15 10:34 新闻

code-generation model-comparison gemma-4 qwen-3 benchmark llama-cpp

摘要

用户测试了社区微调版 gemma-4-12B-coder 与 Qwen3.6-35B-A3B MoE 在三个编程任务上的表现，发现 gemma 在复杂有状态程序上表现不佳，而 Qwen 35B 依然稳健。

试完了，感觉还挺大跌眼镜的，不知道是不是我打开的方式不对，欢迎大家给出反例。接下来是我测的结果：在 M5 Max 上，拿这个社区微调版 gemma-4-12B-coder （llama.cpp）对打我日常在用的 Qwen3.6-35B-A3B MoE（oMLX）。三个任务： matplotlib 数据图表 → 打平，两个都一次跑对、规范齐全 three.js 星系粒子特效 → Qwen 给出能旋转能缩放的星系；gemma 直接黑屏（漏了 importmap、CDN 版本号还打错一位、粒子尺寸小到看不见，三个 bug 叠一起）一个完整可玩的俄罗斯方块 → Qwen 真能玩（下落 / 消行 / 计分到 117 / Next 预览全有）；gemma 的方块压根不往下掉，分数一直挂 0 视频：左 = 俄罗斯方块对比，右 = 星系特效对比后面又把原版 gemma-4-12B-it（同样 4-bit 量化）下下来跑同一个 Tetris → 照样崩（空棋盘、分数 NaN、消行数乱跳）。说明瓶颈是 12B 这个体量撑不住「长篇、有状态、一次成型」的复杂程序，跟微调无关。还挖到个有意思的点：原版开思考模式后，12000 token 全在「想」，一行代码没吐；反而 coder 微调版学会了「想一下就动手」。微调提升的是收敛 / 效率，但抬不高 12B 的天花板。我的 Qwen 35B 依然稳坐甜点宝座

查看原文

查看缓存全文

缓存时间: 2026/06/15 15:07

试完了，感觉还挺大跌眼镜的，不知道是不是我打开的方式不对，欢迎大家给出反例。接下来是我测的结果：

在 M5 Max 上，拿这个社区微调版 gemma-4-12B-coder （llama.cpp）对打我日常在用的 Qwen3.6-35B-A3B MoE（oMLX）。三个任务：

matplotlib 数据图表 → 打平，两个都一次跑对、规范齐全

three.js 星系粒子特效 → Qwen 给出能旋转能缩放的星系；gemma 直接黑屏（漏了 importmap、CDN 版本号还打错一位、粒子尺寸小到看不见，三个 bug 叠一起）

一个完整可玩的俄罗斯方块 → Qwen 真能玩（下落 / 消行 / 计分到 117 / Next 预览全有）；gemma 的方块压根不往下掉，分数一直挂 0

视频：左 = 俄罗斯方块对比，右 = 星系特效对比

后面又把原版 gemma-4-12B-it（同样 4-bit 量化）下下来跑同一个 Tetris → 照样崩（空棋盘、分数 NaN、消行数乱跳）。说明瓶颈是 12B 这个体量撑不住「长篇、有状态、一次成型」的复杂程序，跟微调无关。

还挖到个有意思的点：原版开思考模式后，12000 token 全在「想」，一行代码没吐；反而 coder 微调版学会了「想一下就动手」。微调提升的是收敛 / 效率，但抬不高 12B 的天花板。

我的 Qwen 35B 依然稳坐甜点宝座

Hugging Models (@HuggingModels): Gemma 4 12B Coder is here and it’s a game changer for local code generation. This GGUF model packs Google’s latest gemma-4 architecture into a compact 12B size, perfect for running on consumer hardware. It’s optimized for reasoning and thinking, making it ideal for developers who

相似文章

Gemma 4 击败 Qwen 3.5（更新），Qwen 3.6 27B + MiniMax M2.7 是最佳 OpenCode 组合

Reddit r/LocalLLaMA

个人基准显示：Gemma-4E4B 在路由任务上称王，Qwen-3.6 27/30B 编码力压 Gemma-4，而 MiniMax M2.7 MXFP4 在 OpenCode 的 llama-swap 工作流中取代巨型 Qwen-3.5 量化模型。

Qwen3.6:27b 一次尝试即修复了 CSS UI 错误，而 Gemma4:26B 却无用空转了 15 分钟

Reddit r/LocalLLaMA

用户分享了一份详细的本地编码性能对比，指出 Qwen3.6-27B 仅用一次尝试就修复了 CSS 错误，而 Gemma4-26B 则陷入了递归错误循环。该帖子强调了在 Apple Silicon 硬件上密集模型（Dense models）与混合专家模型（MoE）之间的权衡。

gemma-4-12b-it vs Qwen3.5-9B 在共同基准测试中的对比：Qwen 在 5/8 项基准测试中击败 gemma，虽体积更小但总体胜出

Reddit r/LocalLLaMA

Qwen3.5-9B 在 8 项基准测试中的 5 项中优于 gemma-4-12b-it，尽管模型体积更小。gemma 仅在编程能力上略胜一筹。

通俗版对比：Qwen3.6 35b-a3b 与 Gemma4-26b-a4b-it

Reddit r/LocalLLaMA

Gemma 4-26b-a4b-it 基本是个基础扎实、能稳妥完成任务的 B 等生。Qwen3.6-35b-a3b 则是考出 A+ 的优等生，做完任务后还有余力搞点锦上添花的发挥。在我的 16GB 显存显卡上，两款模型运行速度相当。测试环境为 Windows 下的 LM Studio，采用推荐推理设置。使用的模型：unsloth/gemma-4-26B-A4B-it-UD-Q4_K_S 与 AesSedai/Qwen3.6-35B-A3B IQ4_XS。大家有不同意见吗？**更新：** 看来我之前用 Gemma 4 的方式不太对。[Sadman782 的评论](https://www.redd

我在 MacBook Air M5 上对 21 款本地大模型进行了代码质量与速度的性能评测

Reddit r/LocalLLaMA

一位开发者在 MacBook Air M5 上使用 HumanEval+ 对 21 款本地大模型进行了基准测试，发现 Qwen 3.6 35B-A3B (MoE) 以 89.6% 的得分和 16.9 tok/s 的速度位居榜首，而 Qwen 2.5 Coder 7B 仅需 4.5 GB 内存即可达到 84.2% 的性能，拥有最佳的内存性价比。值得注意的是，Gemma 4 系列的表现远低于预期（31B 版本仅得 31.1%），这可能是受 Q4_K_M 量化策略的影响。

相似文章

Gemma 4 击败 Qwen 3.5（更新），Qwen 3.6 27B + MiniMax M2.7 是最佳 OpenCode 组合

Qwen3.6:27b 一次尝试即修复了 CSS UI 错误，而 Gemma4:26B 却无用空转了 15 分钟

gemma-4-12b-it vs Qwen3.5-9B 在共同基准测试中的对比：Qwen 在 5/8 项基准测试中击败 gemma，虽体积更小但总体胜出

通俗版对比：Qwen3.6 35b-a3b 与 Gemma4-26b-a4b-it

我在 MacBook Air M5 上对 21 款本地大模型进行了代码质量与速度的性能评测

提交意见反馈