实测 OpenCode 与自托管 LLM 的协作：Qwen 3.5、3.6、Gemma 4、Nemotron 3、GLM-4.7 Flash - v2

Reddit r/LocalLLaMA 2026/04/22 06:37 工具

摘要

一位开发者在 RTX 4080 上用 OpenCode 对多款自托管 LLM（Qwen 3.5/3.6、Gemma 4、Nemotron 3、GLM-4.7）进行两项编码任务基准测试，揭示了速度与质量的权衡。

我使用 OpenCode 对每款 LLM 跑了两项测试，检验其基础可用性与易用性：\- 用 Golang 编写 IndexNow CLI（简单任务）\- 按 SiteStructure 策略为网站生成迁移地图（复杂任务）测试了 Qwen 3.5 与 3.6、Gemma 4、Nemotron 3、GLM-4.7 Flash 等多款模型。上下文长度 25k–50k，视任务与模型而异。结果见下表，具体量化名大多在速度表中。希望对你有用。\--- v2 新增测试：\- Qwen 3.6 35b q3 与 q4 → 表现低于预期\- Qwen 3 Coder Next → 结果非常好\- Qwen 3.5 27b q3 Bartowsky → 令人失望https://preview.redd.it/akly3cx1sowg1.png?width=687&format=png&auto=webp&s=5eb5f4868d87b5c78924916e9078b6f63e1d6d82在 RTX 4080（16 GB 显存）上，这些自托管 LLM 的速度如下（供参考）。使用 llama.cpp，温度、top-p 等参数按推荐设置，内存与层数默认。微调后速度或可再提升一点，甚至不止一点 :)https://preview.redd.it/uf1gszu8qowg1.png?width=661&format=png&auto=webp&s=7a0c9b6167ba582ad885640819754e46da28f735本轮测试小结：\- Qwen 3.5 27b（Unthloth 量化）非常稳，适合我的硬件。\- Qwen3 Coder Next 优于 Qwen 3.5 与 3.6 35b。\- Qwen 3.5 与 3.6 35b 还行，但对我的任务还不够好。\- Gemma 4 26b 与 31b 表现亦佳，不过 31b 对 16 GB 显存自托管来说太大。\---各模型在每项测试中的详细行为见：[https://www.glukhov.org/ai-devtools/opencode/llms-comparison/](https://www.glukhov.org/ai-devtools/opencode/llms-comparison/)

查看原文

相似文章

我在 MacBook Air M5 上对 21 款本地大模型进行了代码质量与速度的性能评测

Reddit r/LocalLLaMA

一位开发者在 MacBook Air M5 上使用 HumanEval+ 对 21 款本地大模型进行了基准测试，发现 Qwen 3.6 35B-A3B (MoE) 以 89.6% 的得分和 16.9 tok/s 的速度位居榜首，而 Qwen 2.5 Coder 7B 仅需 4.5 GB 内存即可达到 84.2% 的性能，拥有最佳的内存性价比。值得注意的是，Gemma 4 系列的表现远低于预期（31B 版本仅得 31.1%），这可能是受 Q4_K_M 量化策略的影响。

我在 RTX 5090 上用同一真实架构写作任务实测 Qwen3.6-27B、Qwen3.6-35B-A3B、Qwen3.5-27B 与 Gemma 4

Reddit r/LocalLLaMA

在 RTX 5090 上，让四款本地大模型——Qwen3.6-27B、Qwen3.6-35B、Qwen3.5-27B 与 Gemma 4——完成 2 万 token 架构写作任务，结果显示 Qwen3.6-27B 在清晰度、完整性与实用性上取得最佳综合平衡。

Gemma 4 击败 Qwen 3.5（更新），Qwen 3.6 27B + MiniMax M2.7 是最佳 OpenCode 组合

Reddit r/LocalLLaMA

个人基准显示：Gemma-4E4B 在路由任务上称王，Qwen-3.6 27/30B 编码力压 Gemma-4，而 MiniMax M2.7 MXFP4 在 OpenCode 的 llama-swap 工作流中取代巨型 Qwen-3.5 量化模型。

(交互式)OpenCode 赛车游戏对比：Qwen3.6 35B vs Qwen3.5 122B vs Qwen3.5 27B vs Qwen3.5 4B vs Gemma 4 31B vs Gemma 4 26B vs Qwen3 Coder Next vs GLM 4.7 Flash

Reddit r/LocalLLaMA

一项非正式基准测试，通过 OpenCode/Playwright MCP 让 8 款 AI 模型（Qwen3.6 35B、Qwen3.5 系列、Gemma 4 系列、GLM 4.7 Flash）开发赛车游戏，以测试其代码生成智能体的能力，并记录了各种实现细节与特殊情况。

试了 Qwen3.6-27B-UD-Q6_K_XL.gguf 配 CloudeCode，真不敢相信居然能用

Reddit r/LocalLLaMA

用户报告称，在 RTX 5090 本地运行 Qwen3-27B-UD-Q6_K_XL.gguf，200K 上下文速度约 50 tok/s，编码表现出乎意料地可用，标志着本地模型质量大幅跃升。

相似文章

我在 MacBook Air M5 上对 21 款本地大模型进行了代码质量与速度的性能评测

我在 RTX 5090 上用同一真实架构写作任务实测 Qwen3.6-27B、Qwen3.6-35B-A3B、Qwen3.5-27B 与 Gemma 4

Gemma 4 击败 Qwen 3.5（更新），Qwen 3.6 27B + MiniMax M2.7 是最佳 OpenCode 组合

(交互式)OpenCode 赛车游戏对比：Qwen3.6 35B vs Qwen3.5 122B vs Qwen3.5 27B vs Qwen3.5 4B vs Gemma 4 31B vs Gemma 4 26B vs Qwen3 Coder Next vs GLM 4.7 Flash

试了 Qwen3.6-27B-UD-Q6_K_XL.gguf 配 CloudeCode，真不敢相信居然能用

提交意见反馈