我在 MacBook Air M5 上对 21 款本地大模型进行了代码质量与速度的性能评测

Reddit r/LocalLLaMA 新闻

摘要

一位开发者在 MacBook Air M5 上使用 HumanEval+ 对 21 款本地大模型进行了基准测试,发现 Qwen 3.6 35B-A3B (MoE) 以 89.6% 的得分和 16.9 tok/s 的速度位居榜首,而 Qwen 2.5 Coder 7B 仅需 4.5 GB 内存即可达到 84.2% 的性能,拥有最佳的内存性价比。值得注意的是,Gemma 4 系列的表现远低于预期(31B 版本仅得 31.1%),这可能是受 Q4_K_M 量化策略的影响。

网上充斥着大量“兄弟信我,这款模型写代码更强”的主观讨论。我想用真实数据取代氛围感:究竟哪些模型能写出正确代码?在真实硬件上运行速度如何?所有测试均在完全相同的条件下进行,确保结果具备直接可比性。没有经过挑选的特化提示词,也没有主观感受,仅基于扩展测试套件中 164 道编程题的 pass@1 指标。 # 完整测试结果表 | **模型** | **HumanEval+** | **速度 (tok/s)** | **内存占用** | | :--- | :--- | :--- | :--- | | Qwen 3.6 35B-A3B (MoE) | 89.6% | 16.9 | 20.1 GB | | Qwen 2.5 Coder 32B | 87.2% | 2.5 | 18.6 GB | | Qwen 2.5 Coder 14B | 86.6% | 5.9 | 8.5 GB | | Qwen 2.5 Coder 7B | 84.2% | 11.3 | 4.5 GB | | Phi 4 14B | 82.3% | 5.3 | 8.6 GB | | Devstral Small 24B | 81.7% | 3.5 | 13.5 GB | | Gemma 3 27B | 78.7% | 3.0 | 15.6 GB | | Mistral Small 3.1 24B | 75.6% | 3.6 | 13.5 GB | | Gemma 3 12B | 75.6% | 5.7 | 7.0 GB | | Phi 4 Mini 3.8B | 70.7% | 19.6 | 2.5 GB | | Gemma 3 4B | 64.6% | 16.5 | 2.5 GB | | Mistral Nemo 12B | 64.6% | 6.9 | 7.1 GB | | Llama 3.1 8B | 61.0% | 10.8 | 4.7 GB | | Llama 3.2 3B | 60.4% | 24.1 | 2.0 GB | | Mistral 7B v0.3 | 37.2% | 11.5 | 4.2 GB | | Gemma 3 1B | 34.2% | 46.6 | 0.9 GB | | Llama 3.2 1B | 32.9% | 59.4 | 0.9 GB | | Gemma 4 31B | 31.1% | 5.5 | 18.6 GB | | Gemma 4 E4B | 14.6% | 36.7 | 5.2 GB | | Gemma 4 26B-A4B MoE | 12.2% | 16.2 | 16.1 GB | | Gemma 4 E2B | 9.2% | 29.2 | 3.4 GB | **值得关注的发现** **Qwen 3.6 35B-A3B 遥遥领先**,取得 89.6% 的得分。MoE(混合专家)架构使其虽然名义上是 35B 模型,但实际运行速度仍能达到 16.9 tok/s。决定推理速度的是激活参数量,而决定代码质量的是总参数量。该模型在这两者之间取得了极佳的平衡。 **最佳内存性价比:Qwen 2.5 Coder 7B。** 仅占 4.5 GB 内存即可达到 84.2% 的得分,速度为 11.3 tok/s。如果你的设备只有 8 GB 内存,想要一个日常编码助手,这很可能就是最适合你的模型。 **Gemma 4 的结果令人惊讶且值得探讨。** Gemma 4 31B 仅获得 31.1% 的分数,低于 Llama 3.2 1B(32.9%),更远不及 Gemma 3 27B(78.7%)。Gemma 4 的 MoE 变体(26B-A4B)更是跌至 12.2%。我多次运行这些测试以确认结果。Q4_K_M 量化可能对该架构的影响比预期更严重,或者 HumanEval+ 的任务分布并不利于发挥其优势。非常欢迎大家提出见解或理论。(https://www.reddit.com/r/LocalLLaMA/s/2pgedDFBYt) **Phi 4 Mini 3.8B 属于黑马之选**,仅占 2.5 GB 内存即可达到 70.7% 的得分和 19.6 tok/s 的速度。如果你需要一款体积小、速度快且仍能编写合理代码的模型,它的表现超越了多款体型大得多的模型。 # 方法学说明 * 选用 EvalPlus HumanEval+ 而非标准 HumanEval,因为它为每道题增加了更多测试用例,从而降低了模型靠运气蒙对答案的概率 * 每个模型均独立评估(无并发进程干扰) 完整长文:[https://medium.com/@enescingoz/i-benchmarked-21-coding-models-on-a-macbook-air-heres-which-ones-actually-write-good-code-1a59441dee14](https://medium.com/@enescingoz/i-benchmarked-21-coding-models-on-a-macbook-air-heres-which-ones-actually-write-good-code-1a59441dee14) GitHub 仓库(代码 + 原始数据):[https://github.com/enescingoz/mac-llm-bench](https://github.com/enescingoz/mac-llm-bench) HuggingFace 数据集:[https://huggingface.co/datasets/enescingoz/humaneval-apple-silicon](https://huggingface.co/datasets/enescingoz/humaneval-apple-silicon) 下一期我该测什么模型?本轮测试还有几个名额,我希望能优先测试社区成员实际使用的模型。此外,如果你手头有 Mac 并想在不同硬件(如 M3、M4 Pro、M4 Max 等)上贡献你自己的测试结果,该框架已完全开源,欢迎提交 PR 或参与贡献。
查看原文

相似文章

通俗版对比:Qwen3.6 35b-a3b 与 Gemma4-26b-a4b-it

Reddit r/LocalLLaMA

Gemma 4-26b-a4b-it 基本是个基础扎实、能稳妥完成任务的 B 等生。Qwen3.6-35b-a3b 则是考出 A+ 的优等生,做完任务后还有余力搞点锦上添花的发挥。在我的 16GB 显存显卡上,两款模型运行速度相当。测试环境为 Windows 下的 LM Studio,采用推荐推理设置。使用的模型:unsloth/gemma-4-26B-A4B-it-UD-Q4_K_S 与 AesSedai/Qwen3.6-35B-A3B IQ4_XS。大家有不同意见吗?**更新:** 看来我之前用 Gemma 4 的方式不太对。[Sadman782 的评论](https://www.redd