我在 RTX 5090 上用同一真实架构写作任务实测 Qwen3.6-27B、Qwen3.6-35B-A3B、Qwen3.5-27B 与 Gemma 4

Reddit r/LocalLLaMA 模型

摘要

在 RTX 5090 上,让四款本地大模型——Qwen3.6-27B、Qwen3.6-35B、Qwen3.5-27B 与 Gemma 4——完成 2 万 token 架构写作任务,结果显示 Qwen3.6-27B 在清晰度、完整性与实用性上取得最佳综合平衡。

我跑了一个简单却很有参考价值的本地大模型测试。原本只想对比两款 Qwen 和 Gemma4 就睡觉,结果刷 Reddit 发现 Qwen 3.6-27B 刚发布……那就顺手一起测了吧。 测试模型: - **Gemma4** `cyankiwi/gemma-4-31B-it-AWQ-4bit` - **Qwen3.6-35B** `RedHatAI/Qwen3.6-35B-A3B-NVFP4` - **Qwen3.5-27B** `QuantTrio/Qwen3.5-27B-AWQ` - **Qwen3.6-27B** `cyankiwi/Qwen3.6-27B-AWQ-INT4` 背景:我在做一款把杂乱证据整理成结构化“真相报告”的复杂工具。让同一个 Hermes 写作智能体(代号“Scribe”)执行同一任务:拿两份架构蓝图文档(V1 基线 + V2 扩展)生成一份统一的 `Masterplan.md`,说明: - 产品是什么 - 用户痛点 - UX/产品形态 - UVP/护城河 - 流水线 - 智能体角色 - 架构 - 可信/法律/溯源立场 - V1 到 V2 的变化 V1 约 16k token,V2 约 4.6k token,合计 20.6k token。 我在 RTX 5090 上完整跑完四款模型: - **Gemma4** - **Qwen3.6-35B** - **Qwen3.5-27B** - **Qwen3.6-27B** 为公平并逼出极限,每款模型都经历: 1. 初稿 2. 二修 3. 终润 每阶段都由我的 GPT-5.4 智能体 Manny 指导并评分,不是“问一次就完事”。 ## 我/Manny 的评分维度 - **清晰度** - **完整性** - **自律性** - **实用性** ## 最终结果 ### 清晰度 - Gemma4: **9.4** - Qwen3.6-27B: **8.8** - Qwen3.6-35B: **8.1** - Qwen3.5-27B: **7.4** **胜者:Gemma4**(代价见后文) Gemma 是最强编辑,结构最干净、节奏最好、克制力最佳。 --- ### 完整性 - Qwen3.6-35B: **9.6** - Qwen3.5-27B: **9.1** - Qwen3.6-27B: **8.7** - Gemma4: **7.9** **胜者:Qwen3.6-35B** 35B 的 Qwen 写出了最详尽的架构文档,堪称实现宝典。 --- ### 自律性 - Gemma4: **9.5** - Qwen3.6-27B: **8.6** - Qwen3.6-35B: **7.7** - Qwen3.5-27B: **6.8** **胜者:Gemma4** Gemma 最能把产品身份保持到底。 --- ### 实用性 - Qwen3.6-27B: **9.3** - Qwen3.6-35B: **9.2** - Gemma4: **8.9** - Qwen3.5-27B: **8.8** **胜者:Qwen3.6-27B** 意外之喜:**27B 的 Qwen 3.6 成为最佳“实际干活主力”**——在深度、可读性、可用性之间取得最好平衡。 ## 最终排名 1. **Qwen3.6-27B** —— 综合平衡最佳 2. **Gemma4** —— 最佳编辑/战略家 3. **Qwen3.6-35B** —— 最佳详尽起草机 4. **Qwen3.5-27B** —— 中规中矩,明显落后 # 1) 综合平衡最佳 **Qwen3.6-27B** 它没赢 clarity,也没赢 completeness,却赢了真正重要的“平衡”: - 可读性 - 完整性 - 结构 - 实用价值 # 2) 最佳编辑/战略家 **Gemma4** 如果目标是: - 最干净的终稿 - 最强高管可读性 - 最佳克制 - 最有“ deliberate plan”感觉 Gemma 仍夺冠。 # 3) 最佳详尽架构矿机 **Qwen3.6-35B** 要的是: - 最大实现体量 - 最厚架构素材 - 下游文档富矿 那就选 35B。 # 4) 第四名 **Qwen3.5-27B** 不差,也不丢人,但长文架构/规划任务已明显落后 3.6 双雄和 Gemma。 ## 实际结论 干净分工: - **Gemma4 = 最佳编辑** - **Qwen3.6-35B = 最佳扩写机** - **Qwen3.6-27B = 最佳日常默认** - **Qwen3.5-27B = 能看,但非首选** 如果今天要给本地写作工人设默认,我会选:**Qwen3.6-27B** 个人吐槽 Gemma 4:终稿行数远少于 Qwen 系列 - **Gemma4** → **147 行** - **Qwen3.6-35B** → **725 行** - **Qwen3.5-27B** → **840 行** - **Qwen3.6-27B** → **555 行** Gemma 确实“少即是多”,但技术深度与细节缺失,更像路演稿;35B 则五倍体量,可当实现圣经;3.5-27B 量更大却质不如。Manny 给 Gemma 的评分其实比我还高,供参考。 # 若只看“首稿”表现,排名如下: ## 一次成稿排行榜 1. **Qwen3.6-27B** 2. **Qwen3.6-35B** 3. **Qwen3.5-27B** 4. **Gemma4** ## 为什么 ### 1) Qwen3.6-27B 首稿即最佳平衡: - 产品框架稳 - 结构好 - 密度足 - 比 35B 简洁,比 Gemma 丰富 ### 2) Qwen3.6-35B 首稿就极详尽,但略发散: - 最 exhaustive - 实现素材最厚 - 易过度收录 - 首稿更像素材库而非抛光蓝图 ### 3) Qwen3.5-27B 首稿野心大但松散: - 内容多 - 纪律与连贯性弱于 3.6 ### 4) Gemma4 终稿可能赢,首稿却: - 过压缩 - 过筛选 - 一次成稿深度不足,需要后续修补 ## 一句话总结 - **一次成稿最强:Qwen3.6-27B** - **修后抛光最强:Gemma4**
查看原文

相似文章

通俗版对比:Qwen3.6 35b-a3b 与 Gemma4-26b-a4b-it

Reddit r/LocalLLaMA

Gemma 4-26b-a4b-it 基本是个基础扎实、能稳妥完成任务的 B 等生。Qwen3.6-35b-a3b 则是考出 A+ 的优等生,做完任务后还有余力搞点锦上添花的发挥。在我的 16GB 显存显卡上,两款模型运行速度相当。测试环境为 Windows 下的 LM Studio,采用推荐推理设置。使用的模型:unsloth/gemma-4-26B-A4B-it-UD-Q4_K_S 与 AesSedai/Qwen3.6-35B-A3B IQ4_XS。大家有不同意见吗?**更新:** 看来我之前用 Gemma 4 的方式不太对。[Sadman782 的评论](https://www.redd

4x RTX 3090 上的 Qwen3.5-27B、Qwen3.5-122B 和 Qwen3.6-35B —— MoE 模型在严格全局规则下的表现困境

Reddit r/LocalLLaMA

潜水多年的老用户,首次发帖。在 4 张 RTX 3090 上对三款 Qwen 模型分别进行了 20 多个会话的实时智能体工作测试——**Qwen3.5-27B** 稠密模型、**Qwen3.5-122B-A10B** MoE 和 **Qwen3.6-35B-A3B** MoE。以下数据均解析自持续真实负载下的 vLLM 日志,而非合成基准测试。**本文所有数据的关键负载背景:** 测试框架是一个多智能体编排器,同时运行 1-6 个并发的 OpenCode 会话,Prompt 长度为 30-60k token,并且强制执行**严格的 Bash 允许列表

我在 MacBook Air M5 上对 21 款本地大模型进行了代码质量与速度的性能评测

Reddit r/LocalLLaMA

一位开发者在 MacBook Air M5 上使用 HumanEval+ 对 21 款本地大模型进行了基准测试,发现 Qwen 3.6 35B-A3B (MoE) 以 89.6% 的得分和 16.9 tok/s 的速度位居榜首,而 Qwen 2.5 Coder 7B 仅需 4.5 GB 内存即可达到 84.2% 的性能,拥有最佳的内存性价比。值得注意的是,Gemma 4 系列的表现远低于预期(31B 版本仅得 31.1%),这可能是受 Q4_K_M 量化策略的影响。