@zhixianio: 试完了,感觉还挺大跌眼镜的,不知道是不是我打开的方式不对,欢迎大家给出反例。接下来是我测的结果: 在 M5 Max 上,拿这个社区微调版 gemma-4-12B-coder (llama.cpp)对打我日常在用的 Qwen3.6-35B-…

X AI KOLs Timeline 新闻

摘要

用户测试了社区微调版 gemma-4-12B-coder 与 Qwen3.6-35B-A3B MoE 在三个编程任务上的表现,发现 gemma 在复杂有状态程序上表现不佳,而 Qwen 35B 依然稳健。

试完了,感觉还挺大跌眼镜的,不知道是不是我打开的方式不对,欢迎大家给出反例。接下来是我测的结果: 在 M5 Max 上,拿这个社区微调版 gemma-4-12B-coder (llama.cpp)对打我日常在用的 Qwen3.6-35B-A3B MoE(oMLX)。三个任务: matplotlib 数据图表 → 打平,两个都一次跑对、规范齐全 three.js 星系粒子特效 → Qwen 给出能旋转能缩放的星系;gemma 直接黑屏(漏了 importmap、CDN 版本号还打错一位、粒子尺寸小到看不见,三个 bug 叠一起) 一个完整可玩的俄罗斯方块 → Qwen 真能玩(下落 / 消行 / 计分到 117 / Next 预览全有);gemma 的方块压根不往下掉,分数一直挂 0 视频:左 = 俄罗斯方块对比,右 = 星系特效对比 后面又把原版 gemma-4-12B-it(同样 4-bit 量化)下下来跑同一个 Tetris → 照样崩(空棋盘、分数 NaN、消行数乱跳)。说明瓶颈是 12B 这个体量撑不住「长篇、有状态、一次成型」的复杂程序,跟微调无关。 还挖到个有意思的点:原版开思考模式后,12000 token 全在「想」,一行代码没吐;反而 coder 微调版学会了「想一下就动手」。微调提升的是收敛 / 效率,但抬不高 12B 的天花板。 我的 Qwen 35B 依然稳坐甜点宝座
查看原文
查看缓存全文

缓存时间: 2026/06/15 15:07

试完了,感觉还挺大跌眼镜的,不知道是不是我打开的方式不对,欢迎大家给出反例。接下来是我测的结果:

在 M5 Max 上,拿这个社区微调版 gemma-4-12B-coder (llama.cpp)对打我日常在用的 Qwen3.6-35B-A3B MoE(oMLX)。三个任务:

matplotlib 数据图表 → 打平,两个都一次跑对、规范齐全

three.js 星系粒子特效 → Qwen 给出能旋转能缩放的星系;gemma 直接黑屏(漏了 importmap、CDN 版本号还打错一位、粒子尺寸小到看不见,三个 bug 叠一起)

一个完整可玩的俄罗斯方块 → Qwen 真能玩(下落 / 消行 / 计分到 117 / Next 预览全有);gemma 的方块压根不往下掉,分数一直挂 0

视频:左 = 俄罗斯方块对比,右 = 星系特效对比

后面又把原版 gemma-4-12B-it(同样 4-bit 量化)下下来跑同一个 Tetris → 照样崩(空棋盘、分数 NaN、消行数乱跳)。说明瓶颈是 12B 这个体量撑不住「长篇、有状态、一次成型」的复杂程序,跟微调无关。

还挖到个有意思的点:原版开思考模式后,12000 token 全在「想」,一行代码没吐;反而 coder 微调版学会了「想一下就动手」。微调提升的是收敛 / 效率,但抬不高 12B 的天花板。

我的 Qwen 35B 依然稳坐甜点宝座

Hugging Models (@HuggingModels): Gemma 4 12B Coder is here and it’s a game changer for local code generation. This GGUF model packs Google’s latest gemma-4 architecture into a compact 12B size, perfect for running on consumer hardware. It’s optimized for reasoning and thinking, making it ideal for developers who

相似文章

通俗版对比:Qwen3.6 35b-a3b 与 Gemma4-26b-a4b-it

Reddit r/LocalLLaMA

Gemma 4-26b-a4b-it 基本是个基础扎实、能稳妥完成任务的 B 等生。Qwen3.6-35b-a3b 则是考出 A+ 的优等生,做完任务后还有余力搞点锦上添花的发挥。在我的 16GB 显存显卡上,两款模型运行速度相当。测试环境为 Windows 下的 LM Studio,采用推荐推理设置。使用的模型:unsloth/gemma-4-26B-A4B-it-UD-Q4_K_S 与 AesSedai/Qwen3.6-35B-A3B IQ4_XS。大家有不同意见吗?**更新:** 看来我之前用 Gemma 4 的方式不太对。[Sadman782 的评论](https://www.redd

我在 MacBook Air M5 上对 21 款本地大模型进行了代码质量与速度的性能评测

Reddit r/LocalLLaMA

一位开发者在 MacBook Air M5 上使用 HumanEval+ 对 21 款本地大模型进行了基准测试,发现 Qwen 3.6 35B-A3B (MoE) 以 89.6% 的得分和 16.9 tok/s 的速度位居榜首,而 Qwen 2.5 Coder 7B 仅需 4.5 GB 内存即可达到 84.2% 的性能,拥有最佳的内存性价比。值得注意的是,Gemma 4 系列的表现远低于预期(31B 版本仅得 31.1%),这可能是受 Q4_K_M 量化策略的影响。