Gemma 4 击败 Qwen 3.5（更新），Qwen 3.6 27B + MiniMax M2.7 是最佳 OpenCode 组合

Reddit r/LocalLLaMA 2026/04/23 06:38 模型

摘要

个人基准显示：Gemma-4E4B 在路由任务上称王，Qwen-3.6 27/30B 编码力压 Gemma-4，而 MiniMax M2.7 MXFP4 在 OpenCode 的 llama-swap 工作流中取代巨型 Qwen-3.5 量化模型。

大家好！我前几天发帖说 Gemma 4 已经取代 Qwen 3.5，成为我语义路由和大量编码任务的新主力。第二天 Qwen 3.6 发布，我这周一直在高强度使用。终极对比如下： - **语义路由/分类**：Gemma 4 E4B > Qwen3.5 4B，英文理解更强，但技术深度略逊 - **编码**：Qwen 3.6 30B & 27B > Gemma 4 26B/31B > Qwen 3.5 30B & 27B 我的轻量/高速模型迭代路线： Qwen 3.5 30B → Gemma 4 26B → Qwen 3.6 30B （Gemma 4 26B 也短暂顶替过 Qwen 3.5 27B，直到 3.6 降临，现在两者轮换）目前仅剩 Gemma E4B 做语义路由。 **新突破**：我下了 MiniMax M2.7 MXFP4 权重，用它直接替换掉 Qwen 3.5 122B Q8 和 397B Q2，堪称完美折中，零翻车。想彻底甩掉 Claude Code Pro 订阅：平时项目全靠 Sonnet 4.7（Opus 太烧额度，Haiku 只跑超简任务）。今早装好 OpenCode，把 llama-swap 服务器配成 Qwen 3.6 30B ↔ MiniMax M2.7（GGML 统一内存黑科技），效果炸裂，继续深度测试。目前手动切模型： - 规划阶段 → Qwen 3.6 30B - 打底脚手架 → MiniMax M2.7 - 回炉精修 → Qwen 3.6 30B Qwen 3.6 30B 用 Q\_8 unsloth 量化，OpenCode 里工具调用零失误。MiniMax M2.7 一开始只会“口头指导”，被我提醒“你有手”后立即动手。3.5→3.6 的微调让工具调用意识暴涨。用开源模型写代码的日子太香！回想两三年前拿 CodeLlama 34B 硬刚 ChatGPT 的惨状，进步神速！有问题随时问！硬件：2× RTX 3090 + 1× P40，128 GB DDR4

查看原文

相似文章

通俗版对比：Qwen3.6 35b-a3b 与 Gemma4-26b-a4b-it

Reddit r/LocalLLaMA

Gemma 4-26b-a4b-it 基本是个基础扎实、能稳妥完成任务的 B 等生。Qwen3.6-35b-a3b 则是考出 A+ 的优等生，做完任务后还有余力搞点锦上添花的发挥。在我的 16GB 显存显卡上，两款模型运行速度相当。测试环境为 Windows 下的 LM Studio，采用推荐推理设置。使用的模型：unsloth/gemma-4-26B-A4B-it-UD-Q4_K_S 与 AesSedai/Qwen3.6-35B-A3B IQ4_XS。大家有不同意见吗？**更新：** 看来我之前用 Gemma 4 的方式不太对。[Sadman782 的评论](https://www.redd

我在 RTX 5090 上用同一真实架构写作任务实测 Qwen3.6-27B、Qwen3.6-35B-A3B、Qwen3.5-27B 与 Gemma 4

Reddit r/LocalLLaMA

在 RTX 5090 上，让四款本地大模型——Qwen3.6-27B、Qwen3.6-35B、Qwen3.5-27B 与 Gemma 4——完成 2 万 token 架构写作任务，结果显示 Qwen3.6-27B 在清晰度、完整性与实用性上取得最佳综合平衡。

(交互式)OpenCode 赛车游戏对比：Qwen3.6 35B vs Qwen3.5 122B vs Qwen3.5 27B vs Qwen3.5 4B vs Gemma 4 31B vs Gemma 4 26B vs Qwen3 Coder Next vs GLM 4.7 Flash

Reddit r/LocalLLaMA

一项非正式基准测试，通过 OpenCode/Playwright MCP 让 8 款 AI 模型（Qwen3.6 35B、Qwen3.5 系列、Gemma 4 系列、GLM 4.7 Flash）开发赛车游戏，以测试其代码生成智能体的能力，并记录了各种实现细节与特殊情况。

个人评测后续：Gemma4 26B MoE（Q8）vs Qwen3.5 27B Dense vs Gemma4 31B Dense 对比

Reddit r/LocalLLaMA

个人基准测试显示，Qwen3.5-27B Dense 与 Gemma4-31B Dense 在 37 个失败用例中修复率 100%，即使 8-bit 量化的 Gemma4-26B MoE 也望尘莫及，同时消耗更少 token 与更短挂钟时间。

我在 MacBook Air M5 上对 21 款本地大模型进行了代码质量与速度的性能评测

Reddit r/LocalLLaMA

一位开发者在 MacBook Air M5 上使用 HumanEval+ 对 21 款本地大模型进行了基准测试，发现 Qwen 3.6 35B-A3B (MoE) 以 89.6% 的得分和 16.9 tok/s 的速度位居榜首，而 Qwen 2.5 Coder 7B 仅需 4.5 GB 内存即可达到 84.2% 的性能，拥有最佳的内存性价比。值得注意的是，Gemma 4 系列的表现远低于预期（31B 版本仅得 31.1%），这可能是受 Q4_K_M 量化策略的影响。

相似文章

通俗版对比：Qwen3.6 35b-a3b 与 Gemma4-26b-a4b-it

我在 RTX 5090 上用同一真实架构写作任务实测 Qwen3.6-27B、Qwen3.6-35B-A3B、Qwen3.5-27B 与 Gemma 4

(交互式)OpenCode 赛车游戏对比：Qwen3.6 35B vs Qwen3.5 122B vs Qwen3.5 27B vs Qwen3.5 4B vs Gemma 4 31B vs Gemma 4 26B vs Qwen3 Coder Next vs GLM 4.7 Flash

个人评测后续：Gemma4 26B MoE（Q8）vs Qwen3.5 27B Dense vs Gemma4 31B Dense 对比

我在 MacBook Air M5 上对 21 款本地大模型进行了代码质量与速度的性能评测

提交意见反馈