我在 MacBook Air M5 上对 21 款本地大模型进行了代码质量与速度的性能评测

Reddit r/LocalLLaMA 2026/04/20 21:01 新闻

benchmark apple-silicon code-generation local-llms qwen gemma moe

摘要

一位开发者在 MacBook Air M5 上使用 HumanEval+ 对 21 款本地大模型进行了基准测试，发现 Qwen 3.6 35B-A3B (MoE) 以 89.6% 的得分和 16.9 tok/s 的速度位居榜首，而 Qwen 2.5 Coder 7B 仅需 4.5 GB 内存即可达到 84.2% 的性能，拥有最佳的内存性价比。值得注意的是，Gemma 4 系列的表现远低于预期（31B 版本仅得 31.1%），这可能是受 Q4_K_M 量化策略的影响。

网上充斥着大量“兄弟信我，这款模型写代码更强”的主观讨论。我想用真实数据取代氛围感：究竟哪些模型能写出正确代码？在真实硬件上运行速度如何？所有测试均在完全相同的条件下进行，确保结果具备直接可比性。没有经过挑选的特化提示词，也没有主观感受，仅基于扩展测试套件中 164 道编程题的 pass@1 指标。 # 完整测试结果表 | **模型** | **HumanEval+** | **速度 (tok/s)** | **内存占用** | | :--- | :--- | :--- | :--- | | Qwen 3.6 35B-A3B (MoE) | 89.6% | 16.9 | 20.1 GB | | Qwen 2.5 Coder 32B | 87.2% | 2.5 | 18.6 GB | | Qwen 2.5 Coder 14B | 86.6% | 5.9 | 8.5 GB | | Qwen 2.5 Coder 7B | 84.2% | 11.3 | 4.5 GB | | Phi 4 14B | 82.3% | 5.3 | 8.6 GB | | Devstral Small 24B | 81.7% | 3.5 | 13.5 GB | | Gemma 3 27B | 78.7% | 3.0 | 15.6 GB | | Mistral Small 3.1 24B | 75.6% | 3.6 | 13.5 GB | | Gemma 3 12B | 75.6% | 5.7 | 7.0 GB | | Phi 4 Mini 3.8B | 70.7% | 19.6 | 2.5 GB | | Gemma 3 4B | 64.6% | 16.5 | 2.5 GB | | Mistral Nemo 12B | 64.6% | 6.9 | 7.1 GB | | Llama 3.1 8B | 61.0% | 10.8 | 4.7 GB | | Llama 3.2 3B | 60.4% | 24.1 | 2.0 GB | | Mistral 7B v0.3 | 37.2% | 11.5 | 4.2 GB | | Gemma 3 1B | 34.2% | 46.6 | 0.9 GB | | Llama 3.2 1B | 32.9% | 59.4 | 0.9 GB | | Gemma 4 31B | 31.1% | 5.5 | 18.6 GB | | Gemma 4 E4B | 14.6% | 36.7 | 5.2 GB | | Gemma 4 26B-A4B MoE | 12.2% | 16.2 | 16.1 GB | | Gemma 4 E2B | 9.2% | 29.2 | 3.4 GB | **值得关注的发现** **Qwen 3.6 35B-A3B 遥遥领先**，取得 89.6% 的得分。MoE（混合专家）架构使其虽然名义上是 35B 模型，但实际运行速度仍能达到 16.9 tok/s。决定推理速度的是激活参数量，而决定代码质量的是总参数量。该模型在这两者之间取得了极佳的平衡。 **最佳内存性价比：Qwen 2.5 Coder 7B。** 仅占 4.5 GB 内存即可达到 84.2% 的得分，速度为 11.3 tok/s。如果你的设备只有 8 GB 内存，想要一个日常编码助手，这很可能就是最适合你的模型。 **Gemma 4 的结果令人惊讶且值得探讨。** Gemma 4 31B 仅获得 31.1% 的分数，低于 Llama 3.2 1B（32.9%），更远不及 Gemma 3 27B（78.7%）。Gemma 4 的 MoE 变体（26B-A4B）更是跌至 12.2%。我多次运行这些测试以确认结果。Q4_K_M 量化可能对该架构的影响比预期更严重，或者 HumanEval+ 的任务分布并不利于发挥其优势。非常欢迎大家提出见解或理论。(https://www.reddit.com/r/LocalLLaMA/s/2pgedDFBYt) **Phi 4 Mini 3.8B 属于黑马之选**，仅占 2.5 GB 内存即可达到 70.7% 的得分和 19.6 tok/s 的速度。如果你需要一款体积小、速度快且仍能编写合理代码的模型，它的表现超越了多款体型大得多的模型。 # 方法学说明 * 选用 EvalPlus HumanEval+ 而非标准 HumanEval，因为它为每道题增加了更多测试用例，从而降低了模型靠运气蒙对答案的概率 * 每个模型均独立评估（无并发进程干扰）完整长文：[https://medium.com/@enescingoz/i-benchmarked-21-coding-models-on-a-macbook-air-heres-which-ones-actually-write-good-code-1a59441dee14](https://medium.com/@enescingoz/i-benchmarked-21-coding-models-on-a-macbook-air-heres-which-ones-actually-write-good-code-1a59441dee14) GitHub 仓库（代码 + 原始数据）：[https://github.com/enescingoz/mac-llm-bench](https://github.com/enescingoz/mac-llm-bench) HuggingFace 数据集：[https://huggingface.co/datasets/enescingoz/humaneval-apple-silicon](https://huggingface.co/datasets/enescingoz/humaneval-apple-silicon) 下一期我该测什么模型？本轮测试还有几个名额，我希望能优先测试社区成员实际使用的模型。此外，如果你手头有 Mac 并想在不同硬件（如 M3、M4 Pro、M4 Max 等）上贡献你自己的测试结果，该框架已完全开源，欢迎提交 PR 或参与贡献。

查看原文

相似文章

我在 RTX 5090 上用同一真实架构写作任务实测 Qwen3.6-27B、Qwen3.6-35B-A3B、Qwen3.5-27B 与 Gemma 4

Reddit r/LocalLLaMA

在 RTX 5090 上，让四款本地大模型——Qwen3.6-27B、Qwen3.6-35B、Qwen3.5-27B 与 Gemma 4——完成 2 万 token 架构写作任务，结果显示 Qwen3.6-27B 在清晰度、完整性与实用性上取得最佳综合平衡。

实测 OpenCode 与自托管 LLM 的协作：Qwen 3.5、3.6、Gemma 4、Nemotron 3、GLM-4.7 Flash - v2

Reddit r/LocalLLaMA

一位开发者在 RTX 4080 上用 OpenCode 对多款自托管 LLM（Qwen 3.5/3.6、Gemma 4、Nemotron 3、GLM-4.7）进行两项编码任务基准测试，揭示了速度与质量的权衡。

通俗版对比：Qwen3.6 35b-a3b 与 Gemma4-26b-a4b-it

Reddit r/LocalLLaMA

Gemma 4-26b-a4b-it 基本是个基础扎实、能稳妥完成任务的 B 等生。Qwen3.6-35b-a3b 则是考出 A+ 的优等生，做完任务后还有余力搞点锦上添花的发挥。在我的 16GB 显存显卡上，两款模型运行速度相当。测试环境为 Windows 下的 LM Studio，采用推荐推理设置。使用的模型：unsloth/gemma-4-26B-A4B-it-UD-Q4_K_S 与 AesSedai/Qwen3.6-35B-A3B IQ4_XS。大家有不同意见吗？**更新：** 看来我之前用 Gemma 4 的方式不太对。[Sadman782 的评论](https://www.redd

Gemma 4 击败 Qwen 3.5（更新），Qwen 3.6 27B + MiniMax M2.7 是最佳 OpenCode 组合

Reddit r/LocalLLaMA

个人基准显示：Gemma-4E4B 在路由任务上称王，Qwen-3.6 27/30B 编码力压 Gemma-4，而 MiniMax M2.7 MXFP4 在 OpenCode 的 llama-swap 工作流中取代巨型 Qwen-3.5 量化模型。

个人评测后续：Gemma4 26B MoE（Q8）vs Qwen3.5 27B Dense vs Gemma4 31B Dense 对比

Reddit r/LocalLLaMA

个人基准测试显示，Qwen3.5-27B Dense 与 Gemma4-31B Dense 在 37 个失败用例中修复率 100%，即使 8-bit 量化的 Gemma4-26B MoE 也望尘莫及，同时消耗更少 token 与更短挂钟时间。

相似文章

我在 RTX 5090 上用同一真实架构写作任务实测 Qwen3.6-27B、Qwen3.6-35B-A3B、Qwen3.5-27B 与 Gemma 4

实测 OpenCode 与自托管 LLM 的协作：Qwen 3.5、3.6、Gemma 4、Nemotron 3、GLM-4.7 Flash - v2

通俗版对比：Qwen3.6 35b-a3b 与 Gemma4-26b-a4b-it

Gemma 4 击败 Qwen 3.5（更新），Qwen 3.6 27B + MiniMax M2.7 是最佳 OpenCode 组合

个人评测后续：Gemma4 26B MoE（Q8）vs Qwen3.5 27B Dense vs Gemma4 31B Dense 对比

提交意见反馈