我在 RTX 5090 上用同一真实架构写作任务实测 Qwen3.6-27B、Qwen3.6-35B-A3B、Qwen3.5-27B 与 Gemma 4
摘要
在 RTX 5090 上,让四款本地大模型——Qwen3.6-27B、Qwen3.6-35B、Qwen3.5-27B 与 Gemma 4——完成 2 万 token 架构写作任务,结果显示 Qwen3.6-27B 在清晰度、完整性与实用性上取得最佳综合平衡。
我跑了一个简单却很有参考价值的本地大模型测试。原本只想对比两款 Qwen 和 Gemma4 就睡觉,结果刷 Reddit 发现 Qwen 3.6-27B 刚发布……那就顺手一起测了吧。
测试模型:
- **Gemma4** `cyankiwi/gemma-4-31B-it-AWQ-4bit`
- **Qwen3.6-35B** `RedHatAI/Qwen3.6-35B-A3B-NVFP4`
- **Qwen3.5-27B** `QuantTrio/Qwen3.5-27B-AWQ`
- **Qwen3.6-27B** `cyankiwi/Qwen3.6-27B-AWQ-INT4`
背景:我在做一款把杂乱证据整理成结构化“真相报告”的复杂工具。让同一个 Hermes 写作智能体(代号“Scribe”)执行同一任务:拿两份架构蓝图文档(V1 基线 + V2 扩展)生成一份统一的 `Masterplan.md`,说明:
- 产品是什么
- 用户痛点
- UX/产品形态
- UVP/护城河
- 流水线
- 智能体角色
- 架构
- 可信/法律/溯源立场
- V1 到 V2 的变化
V1 约 16k token,V2 约 4.6k token,合计 20.6k token。
我在 RTX 5090 上完整跑完四款模型:
- **Gemma4**
- **Qwen3.6-35B**
- **Qwen3.5-27B**
- **Qwen3.6-27B**
为公平并逼出极限,每款模型都经历:
1. 初稿
2. 二修
3. 终润
每阶段都由我的 GPT-5.4 智能体 Manny 指导并评分,不是“问一次就完事”。
## 我/Manny 的评分维度
- **清晰度**
- **完整性**
- **自律性**
- **实用性**
## 最终结果
### 清晰度
- Gemma4: **9.4**
- Qwen3.6-27B: **8.8**
- Qwen3.6-35B: **8.1**
- Qwen3.5-27B: **7.4**
**胜者:Gemma4**(代价见后文)
Gemma 是最强编辑,结构最干净、节奏最好、克制力最佳。
---
### 完整性
- Qwen3.6-35B: **9.6**
- Qwen3.5-27B: **9.1**
- Qwen3.6-27B: **8.7**
- Gemma4: **7.9**
**胜者:Qwen3.6-35B**
35B 的 Qwen 写出了最详尽的架构文档,堪称实现宝典。
---
### 自律性
- Gemma4: **9.5**
- Qwen3.6-27B: **8.6**
- Qwen3.6-35B: **7.7**
- Qwen3.5-27B: **6.8**
**胜者:Gemma4**
Gemma 最能把产品身份保持到底。
---
### 实用性
- Qwen3.6-27B: **9.3**
- Qwen3.6-35B: **9.2**
- Gemma4: **8.9**
- Qwen3.5-27B: **8.8**
**胜者:Qwen3.6-27B**
意外之喜:**27B 的 Qwen 3.6 成为最佳“实际干活主力”**——在深度、可读性、可用性之间取得最好平衡。
## 最终排名
1. **Qwen3.6-27B** —— 综合平衡最佳
2. **Gemma4** —— 最佳编辑/战略家
3. **Qwen3.6-35B** —— 最佳详尽起草机
4. **Qwen3.5-27B** —— 中规中矩,明显落后
# 1) 综合平衡最佳 **Qwen3.6-27B**
它没赢 clarity,也没赢 completeness,却赢了真正重要的“平衡”:
- 可读性
- 完整性
- 结构
- 实用价值
# 2) 最佳编辑/战略家 **Gemma4**
如果目标是:
- 最干净的终稿
- 最强高管可读性
- 最佳克制
- 最有“ deliberate plan”感觉
Gemma 仍夺冠。
# 3) 最佳详尽架构矿机 **Qwen3.6-35B**
要的是:
- 最大实现体量
- 最厚架构素材
- 下游文档富矿
那就选 35B。
# 4) 第四名 **Qwen3.5-27B**
不差,也不丢人,但长文架构/规划任务已明显落后 3.6 双雄和 Gemma。
## 实际结论
干净分工:
- **Gemma4 = 最佳编辑**
- **Qwen3.6-35B = 最佳扩写机**
- **Qwen3.6-27B = 最佳日常默认**
- **Qwen3.5-27B = 能看,但非首选**
如果今天要给本地写作工人设默认,我会选:**Qwen3.6-27B**
个人吐槽 Gemma 4:终稿行数远少于 Qwen 系列
- **Gemma4** → **147 行**
- **Qwen3.6-35B** → **725 行**
- **Qwen3.5-27B** → **840 行**
- **Qwen3.6-27B** → **555 行**
Gemma 确实“少即是多”,但技术深度与细节缺失,更像路演稿;35B 则五倍体量,可当实现圣经;3.5-27B 量更大却质不如。Manny 给 Gemma 的评分其实比我还高,供参考。
# 若只看“首稿”表现,排名如下:
## 一次成稿排行榜
1. **Qwen3.6-27B**
2. **Qwen3.6-35B**
3. **Qwen3.5-27B**
4. **Gemma4**
## 为什么
### 1) Qwen3.6-27B
首稿即最佳平衡:
- 产品框架稳
- 结构好
- 密度足
- 比 35B 简洁,比 Gemma 丰富
### 2) Qwen3.6-35B
首稿就极详尽,但略发散:
- 最 exhaustive
- 实现素材最厚
- 易过度收录
- 首稿更像素材库而非抛光蓝图
### 3) Qwen3.5-27B
首稿野心大但松散:
- 内容多
- 纪律与连贯性弱于 3.6
### 4) Gemma4
终稿可能赢,首稿却:
- 过压缩
- 过筛选
- 一次成稿深度不足,需要后续修补
## 一句话总结
- **一次成稿最强:Qwen3.6-27B**
- **修后抛光最强:Gemma4**
相似文章
Reddit r/LocalLLaMA
Gemma 4-26b-a4b-it 基本是个基础扎实、能稳妥完成任务的 B 等生。Qwen3.6-35b-a3b 则是考出 A+ 的优等生,做完任务后还有余力搞点锦上添花的发挥。在我的 16GB 显存显卡上,两款模型运行速度相当。测试环境为 Windows 下的 LM Studio,采用推荐推理设置。使用的模型:unsloth/gemma-4-26B-A4B-it-UD-Q4_K_S 与 AesSedai/Qwen3.6-35B-A3B IQ4_XS。大家有不同意见吗?**更新:** 看来我之前用 Gemma 4 的方式不太对。[Sadman782 的评论](https://www.redd
Reddit r/LocalLLaMA
潜水多年的老用户,首次发帖。在 4 张 RTX 3090 上对三款 Qwen 模型分别进行了 20 多个会话的实时智能体工作测试——**Qwen3.5-27B** 稠密模型、**Qwen3.5-122B-A10B** MoE 和 **Qwen3.6-35B-A3B** MoE。以下数据均解析自持续真实负载下的 vLLM 日志,而非合成基准测试。**本文所有数据的关键负载背景:** 测试框架是一个多智能体编排器,同时运行 1-6 个并发的 OpenCode 会话,Prompt 长度为 30-60k token,并且强制执行**严格的 Bash 允许列表
Reddit r/LocalLLaMA
一位开发者在 MacBook Air M5 上使用 HumanEval+ 对 21 款本地大模型进行了基准测试,发现 Qwen 3.6 35B-A3B (MoE) 以 89.6% 的得分和 16.9 tok/s 的速度位居榜首,而 Qwen 2.5 Coder 7B 仅需 4.5 GB 内存即可达到 84.2% 的性能,拥有最佳的内存性价比。值得注意的是,Gemma 4 系列的表现远低于预期(31B 版本仅得 31.1%),这可能是受 Q4_K_M 量化策略的影响。
Reddit r/LocalLLaMA
在 108 k token 的 JS 文件上,Qwen 3.6 35B 实现 283/285 行近乎完美的召回率,碾压 Gemma 4 27B(仅 6/16 通过),并修复了早期 Qwen 的长上下文短板。
Reddit r/LocalLLaMA
个人基准显示:Gemma-4E4B 在路由任务上称王,Qwen-3.6 27/30B 编码力压 Gemma-4,而 MiniMax M2.7 MXFP4 在 OpenCode 的 llama-swap 工作流中取代巨型 Qwen-3.5 量化模型。