(交互式)OpenCode 赛车游戏对比:Qwen3.6 35B vs Qwen3.5 122B vs Qwen3.5 27B vs Qwen3.5 4B vs Gemma 4 31B vs Gemma 4 26B vs Qwen3 Coder Next vs GLM 4.7 Flash
摘要
一项非正式基准测试,通过 OpenCode/Playwright MCP 让 8 款 AI 模型(Qwen3.6 35B、Qwen3.5 系列、Gemma 4 系列、GLM 4.7 Flash)开发赛车游戏,以测试其代码生成智能体的能力,并记录了各种实现细节与特殊情况。
相似文章
通俗版对比:Qwen3.6 35b-a3b 与 Gemma4-26b-a4b-it
Gemma 4-26b-a4b-it 基本是个基础扎实、能稳妥完成任务的 B 等生。Qwen3.6-35b-a3b 则是考出 A+ 的优等生,做完任务后还有余力搞点锦上添花的发挥。在我的 16GB 显存显卡上,两款模型运行速度相当。测试环境为 Windows 下的 LM Studio,采用推荐推理设置。使用的模型:unsloth/gemma-4-26B-A4B-it-UD-Q4_K_S 与 AesSedai/Qwen3.6-35B-A3B IQ4_XS。大家有不同意见吗?**更新:** 看来我之前用 Gemma 4 的方式不太对。[Sadman782 的评论](https://www.redd
Gemma 4 击败 Qwen 3.5(更新),Qwen 3.6 27B + MiniMax M2.7 是最佳 OpenCode 组合
个人基准显示:Gemma-4E4B 在路由任务上称王,Qwen-3.6 27/30B 编码力压 Gemma-4,而 MiniMax M2.7 MXFP4 在 OpenCode 的 llama-swap 工作流中取代巨型 Qwen-3.5 量化模型。
我在 RTX 5090 上用同一真实架构写作任务实测 Qwen3.6-27B、Qwen3.6-35B-A3B、Qwen3.5-27B 与 Gemma 4
在 RTX 5090 上,让四款本地大模型——Qwen3.6-27B、Qwen3.6-35B、Qwen3.5-27B 与 Gemma 4——完成 2 万 token 架构写作任务,结果显示 Qwen3.6-27B 在清晰度、完整性与实用性上取得最佳综合平衡。
YouTuber 用 Qwen 3.5 35B、Qwen 3.6 35B 与 Gemma 4 27B 逆向大型 JS,Qwen 3.6 表现亮眼
在 108 k token 的 JS 文件上,Qwen 3.6 35B 实现 283/285 行近乎完美的召回率,碾压 Gemma 4 27B(仅 6/16 通过),并修复了早期 Qwen 的长上下文短板。
gemma-4-12b-it vs Qwen3.5-9B 在共同基准测试中的对比:Qwen 在 5/8 项基准测试中击败 gemma,虽体积更小但总体胜出
Qwen3.5-9B 在 8 项基准测试中的 5 项中优于 gemma-4-12b-it,尽管模型体积更小。gemma 仅在编程能力上略胜一筹。