(交互式)OpenCode 赛车游戏对比：Qwen3.6 35B vs Qwen3.5 122B vs Qwen3.5 27B vs Qwen3.5 4B vs Gemma 4 31B vs Gemma 4 26B vs Qwen3 Coder Next vs GLM 4.7 Flash

Reddit r/LocalLLaMA 2026/04/21 04:30 模型

benchmark opencode coding-agent multi-model racing-game interactive comparison

摘要

一项非正式基准测试，通过 OpenCode/Playwright MCP 让 8 款 AI 模型（Qwen3.6 35B、Qwen3.5 系列、Gemma 4 系列、GLM 4.7 Flash）开发赛车游戏，以测试其代码生成智能体的能力，并记录了各种实现细节与特殊情况。

你可以在这里试玩：[https://fatheredpuma81.github.io/LLM\_Racing\_Games/](https://fatheredpuma81.github.io/LLM_Racing_Games/) 这项测试最初只是简单对比 Qwen3 Coder Next 和 Qwen3.5 4B，因为它们的基准分数相近。随后我陆续尝试了其他模型，并最终决定分享这次结果，尽管我对自己的测试流程并非完全满意。如果你想了解具体操作，请查看右上角的“工作原理”；简而言之（TLDR）：关闭视觉功能，在 Plan 模式下发送相同的初始提示词，启用 Playwright MCP 并发出相同的首发指令，接着进行 3 轮测试，期间我反复运行游戏并向大模型指出发现的问题。如果今后有机会重做，我有很多地方会调整。比如为其中一个模型保留并展示全部 4 个版本的 HTML、不关闭视觉功能（这严重拖累了 Qwen 27B 的表现，当初关闭只是为了在 4B 和 Coder 之间做同等条件对比），还有各种想法我就不一一赘述了，毕竟太累记不清了。以下是一些有趣的观察： * Qwen3 Coder Next 的游戏看起来确实有赛道，但赛道实际上是由不可见墙体拼凑而成的。 * Gemma 4 31B 和 Qwen3.5 27B 在每一轮都输出完整代码，而其他模型主要以增量编辑为主。 * Gemma 4 31B 的游戏一度真正渲染出了道路。 * Qwen3.5 27B 在最后一步意外禁用了 Playwright MCP，反而造就了车辆能够以合理速度移动和转向的效果。从第 1 版到最后一版 HTML，实际改动仅仅增加了树木。 * Qwen3.5 27B 是唯一让轮胎能够转向的模型，不过你可能根本看不见它转。 * Gemma 4 26B 是唯一添加音效的模型。 * Gemma 4 26B 添加了当你撞上墙壁时火箭队汽车“再次起飞”的彩蛋，但随后 OpenCode 在执行过程中基本崩溃，我不得不回滚版本，最终呈现的是缺乏该彩蛋的纯音效版本。 * GLM 4.7 Flash 和 Gemma 4 26B 是唯二生成子智能体的模型。GLM 将其用于规划阶段的信息检索，而 Gemma 在最后一步用它来实现音效。 * 发现 GLM 4.7 Flash 如果不加以适配就无法直接运行 Q8_0 K Cache 量化。 * Qwen3.5 4B 使用 NPX 安装了自身版本的 Playwright，然后在第 2/3 轮的 Bug 修复阶段开始同时调用双版本。 * GLM 4.7 Flash 的最终输出生成了白屏，于是我回退了一步并要求它重新输出完整代码。所以它大概只跑了 2 轮？ * Qwen3.6 35B 的游戏在多方面出现了倒退。虽然取消了画面抖动，赛道变窄了，碰撞箱也和墙体完美贴合，但小地图反而更乱了，我认为它是混淆了小地图赛道和物理赛道。

查看原文

相似文章

通俗版对比：Qwen3.6 35b-a3b 与 Gemma4-26b-a4b-it

Reddit r/LocalLLaMA

Gemma 4-26b-a4b-it 基本是个基础扎实、能稳妥完成任务的 B 等生。Qwen3.6-35b-a3b 则是考出 A+ 的优等生，做完任务后还有余力搞点锦上添花的发挥。在我的 16GB 显存显卡上，两款模型运行速度相当。测试环境为 Windows 下的 LM Studio，采用推荐推理设置。使用的模型：unsloth/gemma-4-26B-A4B-it-UD-Q4_K_S 与 AesSedai/Qwen3.6-35B-A3B IQ4_XS。大家有不同意见吗？**更新：** 看来我之前用 Gemma 4 的方式不太对。[Sadman782 的评论](https://www.redd

(交互式)OpenCode 赛车游戏对比：Qwen3.6 35B vs Qwen3.5 122B vs Qwen3.5 27B vs Qwen3.5 4B vs Gemma 4 31B vs Gemma 4 26B vs Qwen3 Coder Next vs GLM 4.7 Flash

相似文章

通俗版对比：Qwen3.6 35b-a3b 与 Gemma4-26b-a4b-it

Gemma 4 击败 Qwen 3.5（更新），Qwen 3.6 27B + MiniMax M2.7 是最佳 OpenCode 组合

我在 RTX 5090 上用同一真实架构写作任务实测 Qwen3.6-27B、Qwen3.6-35B-A3B、Qwen3.5-27B 与 Gemma 4

YouTuber 用 Qwen 3.5 35B、Qwen 3.6 35B 与 Gemma 4 27B 逆向大型 JS，Qwen 3.6 表现亮眼

gemma-4-12b-it vs Qwen3.5-9B 在共同基准测试中的对比：Qwen 在 5/8 项基准测试中击败 gemma，虽体积更小但总体胜出

提交意见反馈