gemma-4-12b-it vs Qwen3.5-9B 在共同基准测试中的对比：Qwen 在 5/8 项基准测试中击败 gemma，虽体积更小但总体胜出

Reddit r/LocalLLaMA 2026/06/03 19:51 新闻

model-comparison benchmarks open-source llm performance nlp

摘要

Qwen3.5-9B 在 8 项基准测试中的 5 项中优于 gemma-4-12b-it，尽管模型体积更小。gemma 仅在编程能力上略胜一筹。

我实在不太理解 gemma 的热度。Qwen 在单位 GB 性能上优于 gemma，且 KV 缓存更轻量。当然，gemma-4-12b-it 可能在编程方面比 Qwen3.5-9b 稍好一些，但你也可以直接使用 omnicoder-9b（基于 Qwen3.5-9b 的编程微调版本）。注：基准测试结果来自 Hugging Face 官方模型卡片，并使用 ChatGPT 整理成表格。

查看原文

相似文章

Qwen3.6-35B 与 Gemma4-26B 在 7900 XTX 上的对比

Reddit r/LocalLLaMA

一项详细的基准测试对比了 Radeon 7900 XTX 上的 Qwen3.6-35B 和 Gemma4-26B，结果显示尽管 Gemma 的 token 生成速度较慢，但端到端快了约 20%，原因是 Qwen 因内部推理生成了约两倍的 token。文章建议：在吞吐量受限的批量任务中使用 Qwen，在延迟敏感的单次请求中使用 Gemma。

Gemma 4 击败 Qwen 3.5（更新），Qwen 3.6 27B + MiniMax M2.7 是最佳 OpenCode 组合

Reddit r/LocalLLaMA

个人基准显示：Gemma-4E4B 在路由任务上称王，Qwen-3.6 27/30B 编码力压 Gemma-4，而 MiniMax M2.7 MXFP4 在 OpenCode 的 llama-swap 工作流中取代巨型 Qwen-3.5 量化模型。

通俗版对比：Qwen3.6 35b-a3b 与 Gemma4-26b-a4b-it

Reddit r/LocalLLaMA

Gemma 4-26b-a4b-it 基本是个基础扎实、能稳妥完成任务的 B 等生。Qwen3.6-35b-a3b 则是考出 A+ 的优等生，做完任务后还有余力搞点锦上添花的发挥。在我的 16GB 显存显卡上，两款模型运行速度相当。测试环境为 Windows 下的 LM Studio，采用推荐推理设置。使用的模型：unsloth/gemma-4-26B-A4B-it-UD-Q4_K_S 与 AesSedai/Qwen3.6-35B-A3B IQ4_XS。大家有不同意见吗？**更新：** 看来我之前用 Gemma 4 的方式不太对。[Sadman782 的评论](https://www.redd

我在 RTX 5090 上用同一真实架构写作任务实测 Qwen3.6-27B、Qwen3.6-35B-A3B、Qwen3.5-27B 与 Gemma 4

Reddit r/LocalLLaMA

在 RTX 5090 上，让四款本地大模型——Qwen3.6-27B、Qwen3.6-35B、Qwen3.5-27B 与 Gemma 4——完成 2 万 token 架构写作任务，结果显示 Qwen3.6-27B 在清晰度、完整性与实用性上取得最佳综合平衡。

个人评测后续：Gemma4 26B MoE（Q8）vs Qwen3.5 27B Dense vs Gemma4 31B Dense 对比

Reddit r/LocalLLaMA

个人基准测试显示，Qwen3.5-27B Dense 与 Gemma4-31B Dense 在 37 个失败用例中修复率 100%，即使 8-bit 量化的 Gemma4-26B MoE 也望尘莫及，同时消耗更少 token 与更短挂钟时间。

相似文章

Qwen3.6-35B 与 Gemma4-26B 在 7900 XTX 上的对比

Gemma 4 击败 Qwen 3.5（更新），Qwen 3.6 27B + MiniMax M2.7 是最佳 OpenCode 组合

通俗版对比：Qwen3.6 35b-a3b 与 Gemma4-26b-a4b-it

我在 RTX 5090 上用同一真实架构写作任务实测 Qwen3.6-27B、Qwen3.6-35B-A3B、Qwen3.5-27B 与 Gemma 4

个人评测后续：Gemma4 26B MoE（Q8）vs Qwen3.5 27B Dense vs Gemma4 31B Dense 对比

提交意见反馈