实测 OpenCode 与自托管 LLM 的协作:Qwen 3.5、3.6、Gemma 4、Nemotron 3、GLM-4.7 Flash - v2

Reddit r/LocalLLaMA 工具

摘要

一位开发者在 RTX 4080 上用 OpenCode 对多款自托管 LLM(Qwen 3.5/3.6、Gemma 4、Nemotron 3、GLM-4.7)进行两项编码任务基准测试,揭示了速度与质量的权衡。

我使用 OpenCode 对每款 LLM 跑了两项测试,检验其基础可用性与易用性:\- 用 Golang 编写 IndexNow CLI(简单任务)\- 按 SiteStructure 策略为网站生成迁移地图(复杂任务)测试了 Qwen 3.5 与 3.6、Gemma 4、Nemotron 3、GLM-4.7 Flash 等多款模型。上下文长度 25k–50k,视任务与模型而异。结果见下表,具体量化名大多在速度表中。希望对你有用。\--- v2 新增测试:\- Qwen 3.6 35b q3 与 q4 → 表现低于预期\- Qwen 3 Coder Next → 结果非常好\- Qwen 3.5 27b q3 Bartowsky → 令人失望https://preview.redd.it/akly3cx1sowg1.png?width=687&format=png&auto=webp&s=5eb5f4868d87b5c78924916e9078b6f63e1d6d82在 RTX 4080(16 GB 显存)上,这些自托管 LLM 的速度如下(供参考)。使用 llama.cpp,温度、top-p 等参数按推荐设置,内存与层数默认。微调后速度或可再提升一点,甚至不止一点 :)https://preview.redd.it/uf1gszu8qowg1.png?width=661&format=png&auto=webp&s=7a0c9b6167ba582ad885640819754e46da28f735本轮测试小结:\- Qwen 3.5 27b(Unthloth 量化)非常稳,适合我的硬件。\- Qwen3 Coder Next 优于 Qwen 3.5 与 3.6 35b。\- Qwen 3.5 与 3.6 35b 还行,但对我的任务还不够好。\- Gemma 4 26b 与 31b 表现亦佳,不过 31b 对 16 GB 显存自托管来说太大。\---各模型在每项测试中的详细行为见:[https://www.glukhov.org/ai-devtools/opencode/llms-comparison/](https://www.glukhov.org/ai-devtools/opencode/llms-comparison/)
查看原文

相似文章

我在 MacBook Air M5 上对 21 款本地大模型进行了代码质量与速度的性能评测

Reddit r/LocalLLaMA

一位开发者在 MacBook Air M5 上使用 HumanEval+ 对 21 款本地大模型进行了基准测试,发现 Qwen 3.6 35B-A3B (MoE) 以 89.6% 的得分和 16.9 tok/s 的速度位居榜首,而 Qwen 2.5 Coder 7B 仅需 4.5 GB 内存即可达到 84.2% 的性能,拥有最佳的内存性价比。值得注意的是,Gemma 4 系列的表现远低于预期(31B 版本仅得 31.1%),这可能是受 Q4_K_M 量化策略的影响。