我在 RTX 5090 上用同一真实架构写作任务实测 Qwen3.6-27B、Qwen3.6-35B-A3B、Qwen3.5-27B 与 Gemma 4

Reddit r/LocalLLaMA 2026/04/23 00:22 模型

摘要

在 RTX 5090 上，让四款本地大模型——Qwen3.6-27B、Qwen3.6-35B、Qwen3.5-27B 与 Gemma 4——完成 2 万 token 架构写作任务，结果显示 Qwen3.6-27B 在清晰度、完整性与实用性上取得最佳综合平衡。

我跑了一个简单却很有参考价值的本地大模型测试。原本只想对比两款 Qwen 和 Gemma4 就睡觉，结果刷 Reddit 发现 Qwen 3.6-27B 刚发布……那就顺手一起测了吧。测试模型： - **Gemma4** `cyankiwi/gemma-4-31B-it-AWQ-4bit` - **Qwen3.6-35B** `RedHatAI/Qwen3.6-35B-A3B-NVFP4` - **Qwen3.5-27B** `QuantTrio/Qwen3.5-27B-AWQ` - **Qwen3.6-27B** `cyankiwi/Qwen3.6-27B-AWQ-INT4` 背景：我在做一款把杂乱证据整理成结构化“真相报告”的复杂工具。让同一个 Hermes 写作智能体（代号“Scribe”）执行同一任务：拿两份架构蓝图文档（V1 基线 + V2 扩展）生成一份统一的 `Masterplan.md`，说明： - 产品是什么 - 用户痛点 - UX/产品形态 - UVP/护城河 - 流水线 - 智能体角色 - 架构 - 可信/法律/溯源立场 - V1 到 V2 的变化 V1 约 16k token，V2 约 4.6k token，合计 20.6k token。我在 RTX 5090 上完整跑完四款模型： - **Gemma4** - **Qwen3.6-35B** - **Qwen3.5-27B** - **Qwen3.6-27B** 为公平并逼出极限，每款模型都经历： 1. 初稿 2. 二修 3. 终润每阶段都由我的 GPT-5.4 智能体 Manny 指导并评分，不是“问一次就完事”。 ## 我/Manny 的评分维度 - **清晰度** - **完整性** - **自律性** - **实用性** ## 最终结果 ### 清晰度 - Gemma4: **9.4** - Qwen3.6-27B: **8.8** - Qwen3.6-35B: **8.1** - Qwen3.5-27B: **7.4** **胜者：Gemma4**（代价见后文） Gemma 是最强编辑，结构最干净、节奏最好、克制力最佳。 --- ### 完整性 - Qwen3.6-35B: **9.6** - Qwen3.5-27B: **9.1** - Qwen3.6-27B: **8.7** - Gemma4: **7.9** **胜者：Qwen3.6-35B** 35B 的 Qwen 写出了最详尽的架构文档，堪称实现宝典。 --- ### 自律性 - Gemma4: **9.5** - Qwen3.6-27B: **8.6** - Qwen3.6-35B: **7.7** - Qwen3.5-27B: **6.8** **胜者：Gemma4** Gemma 最能把产品身份保持到底。 --- ### 实用性 - Qwen3.6-27B: **9.3** - Qwen3.6-35B: **9.2** - Gemma4: **8.9** - Qwen3.5-27B: **8.8** **胜者：Qwen3.6-27B** 意外之喜：**27B 的 Qwen 3.6 成为最佳“实际干活主力”**——在深度、可读性、可用性之间取得最好平衡。 ## 最终排名 1. **Qwen3.6-27B** —— 综合平衡最佳 2. **Gemma4** —— 最佳编辑/战略家 3. **Qwen3.6-35B** —— 最佳详尽起草机 4. **Qwen3.5-27B** —— 中规中矩，明显落后 # 1) 综合平衡最佳 **Qwen3.6-27B** 它没赢 clarity，也没赢 completeness，却赢了真正重要的“平衡”： - 可读性 - 完整性 - 结构 - 实用价值 # 2) 最佳编辑/战略家 **Gemma4** 如果目标是： - 最干净的终稿 - 最强高管可读性 - 最佳克制 - 最有“ deliberate plan”感觉 Gemma 仍夺冠。 # 3) 最佳详尽架构矿机 **Qwen3.6-35B** 要的是： - 最大实现体量 - 最厚架构素材 - 下游文档富矿那就选 35B。 # 4) 第四名 **Qwen3.5-27B** 不差，也不丢人，但长文架构/规划任务已明显落后 3.6 双雄和 Gemma。 ## 实际结论干净分工： - **Gemma4 = 最佳编辑** - **Qwen3.6-35B = 最佳扩写机** - **Qwen3.6-27B = 最佳日常默认** - **Qwen3.5-27B = 能看，但非首选** 如果今天要给本地写作工人设默认，我会选：**Qwen3.6-27B** 个人吐槽 Gemma 4：终稿行数远少于 Qwen 系列 - **Gemma4** → **147 行** - **Qwen3.6-35B** → **725 行** - **Qwen3.5-27B** → **840 行** - **Qwen3.6-27B** → **555 行** Gemma 确实“少即是多”，但技术深度与细节缺失，更像路演稿；35B 则五倍体量，可当实现圣经；3.5-27B 量更大却质不如。Manny 给 Gemma 的评分其实比我还高，供参考。 # 若只看“首稿”表现，排名如下： ## 一次成稿排行榜 1. **Qwen3.6-27B** 2. **Qwen3.6-35B** 3. **Qwen3.5-27B** 4. **Gemma4** ## 为什么 ### 1) Qwen3.6-27B 首稿即最佳平衡： - 产品框架稳 - 结构好 - 密度足 - 比 35B 简洁，比 Gemma 丰富 ### 2) Qwen3.6-35B 首稿就极详尽，但略发散： - 最 exhaustive - 实现素材最厚 - 易过度收录 - 首稿更像素材库而非抛光蓝图 ### 3) Qwen3.5-27B 首稿野心大但松散： - 内容多 - 纪律与连贯性弱于 3.6 ### 4) Gemma4 终稿可能赢，首稿却： - 过压缩 - 过筛选 - 一次成稿深度不足，需要后续修补 ## 一句话总结 - **一次成稿最强：Qwen3.6-27B** - **修后抛光最强：Gemma4**

查看原文

相似文章

通俗版对比：Qwen3.6 35b-a3b 与 Gemma4-26b-a4b-it

Reddit r/LocalLLaMA

Gemma 4-26b-a4b-it 基本是个基础扎实、能稳妥完成任务的 B 等生。Qwen3.6-35b-a3b 则是考出 A+ 的优等生，做完任务后还有余力搞点锦上添花的发挥。在我的 16GB 显存显卡上，两款模型运行速度相当。测试环境为 Windows 下的 LM Studio，采用推荐推理设置。使用的模型：unsloth/gemma-4-26B-A4B-it-UD-Q4_K_S 与 AesSedai/Qwen3.6-35B-A3B IQ4_XS。大家有不同意见吗？**更新：** 看来我之前用 Gemma 4 的方式不太对。[Sadman782 的评论](https://www.redd

4x RTX 3090 上的 Qwen3.5-27B、Qwen3.5-122B 和 Qwen3.6-35B —— MoE 模型在严格全局规则下的表现困境

Reddit r/LocalLLaMA

潜水多年的老用户，首次发帖。在 4 张 RTX 3090 上对三款 Qwen 模型分别进行了 20 多个会话的实时智能体工作测试——**Qwen3.5-27B** 稠密模型、**Qwen3.5-122B-A10B** MoE 和 **Qwen3.6-35B-A3B** MoE。以下数据均解析自持续真实负载下的 vLLM 日志，而非合成基准测试。**本文所有数据的关键负载背景：** 测试框架是一个多智能体编排器，同时运行 1-6 个并发的 OpenCode 会话，Prompt 长度为 30-60k token，并且强制执行**严格的 Bash 允许列表

我在 RTX 5090 上用同一真实架构写作任务实测 Qwen3.6-27B、Qwen3.6-35B-A3B、Qwen3.5-27B 与 Gemma 4

相似文章

通俗版对比：Qwen3.6 35b-a3b 与 Gemma4-26b-a4b-it

4x RTX 3090 上的 Qwen3.5-27B、Qwen3.5-122B 和 Qwen3.6-35B —— MoE 模型在严格全局规则下的表现困境

我在 MacBook Air M5 上对 21 款本地大模型进行了代码质量与速度的性能评测

YouTuber 用 Qwen 3.5 35B、Qwen 3.6 35B 与 Gemma 4 27B 逆向大型 JS，Qwen 3.6 表现亮眼

Gemma 4 击败 Qwen 3.5（更新），Qwen 3.6 27B + MiniMax M2.7 是最佳 OpenCode 组合

提交意见反馈