大家怎么看？我们能说 Qwen 3.6 27B 打败了 Gemini 2.5 Pro 吗？或者 Sonnet 3.7？因为我在测试中发现 27B 表现更好。

Reddit r/LocalLLaMA 2026/06/12 02:54 新闻

model-comparison benchmark qwen gemini claude reasoning

摘要

一位用户询问 27B 参数的 Qwen 3.6 模型是否能在深度网络搜索、编码和代理任务上超越 Gemini 2.5 Pro 和 Sonnet 3.7，并寻求能打败 Gemini 2.5 Pro 的最低参数模型建议。

所以我基本上是在问，目前最强的千亿以下参数模型能否打败一年前的旗舰模型？这里我指的是在这三个方面打败：1. 深度网络搜索 2. 编码 3. 代理任务，比如访问 xyz 网站，点击 abc 按钮，并给我截图。如果不行，那么你能自信地说哪个模型可以打败 Gemini 2.5 Pro？（可能的最低参数模型）

查看原文

相似文章

Qwen 3.6 27B 太牛了

Reddit r/LocalLLaMA

一位用户分享了在本地使用 Qwen 3.6 27B 进行复杂研究和编程的积极体验，发现它在职业建议和移民研究方面优于 Gemini Pro，同时也提到 Gemma 4 31B 存在性能问题。

Qwen3.6-35B-A3B 和 9B 已正式登上公开的 Terminal-Bench 2.0 排行榜！

Reddit r/LocalLLaMA

Qwen3.6-35B-A3B 和 Qwen3.5-9B 模型已正式登上 Terminal-Bench 2.0 排行榜，其中 little-coder 在 35B 变体上取得 24.6% 的成绩，超越了 Gemini 2.5 Pro 和 Qwen3-Coder-480B；而 9B 模型则表明，10B 以下的本地模型能够与高难度代理基准竞争。

Qwen 3.6 35B A3B 的热度绝非虚名！

Reddit r/LocalLLaMA

作者对小型本地 LLM 进行了基准测试，重点突出了 Qwen 3.6 35B A3B，其将学术代码与研究论文进行映射的能力优于 Gemma 4 和 Nemotron 3 Nano 等模型。

Gemma 4 击败 Qwen 3.5（更新），Qwen 3.6 27B + MiniMax M2.7 是最佳 OpenCode 组合

Reddit r/LocalLLaMA

个人基准显示：Gemma-4E4B 在路由任务上称王，Qwen-3.6 27/30B 编码力压 Gemma-4，而 MiniMax M2.7 MXFP4 在 OpenCode 的 llama-swap 工作流中取代巨型 Qwen-3.5 量化模型。

通俗版对比：Qwen3.6 35b-a3b 与 Gemma4-26b-a4b-it

Reddit r/LocalLLaMA

Gemma 4-26b-a4b-it 基本是个基础扎实、能稳妥完成任务的 B 等生。Qwen3.6-35b-a3b 则是考出 A+ 的优等生，做完任务后还有余力搞点锦上添花的发挥。在我的 16GB 显存显卡上，两款模型运行速度相当。测试环境为 Windows 下的 LM Studio，采用推荐推理设置。使用的模型：unsloth/gemma-4-26B-A4B-it-UD-Q4_K_S 与 AesSedai/Qwen3.6-35B-A3B IQ4_XS。大家有不同意见吗？**更新：** 看来我之前用 Gemma 4 的方式不太对。[Sadman782 的评论](https://www.redd

相似文章

Qwen 3.6 27B 太牛了

Qwen3.6-35B-A3B 和 9B 已正式登上公开的 Terminal-Bench 2.0 排行榜！

Qwen 3.6 35B A3B 的热度绝非虚名！

Gemma 4 击败 Qwen 3.5（更新），Qwen 3.6 27B + MiniMax M2.7 是最佳 OpenCode 组合

通俗版对比：Qwen3.6 35b-a3b 与 Gemma4-26b-a4b-it

提交意见反馈