Qwen 3.6 35B A3B 的热度绝非虚名!

Reddit r/LocalLLaMA 模型

摘要

作者对小型本地 LLM 进行了基准测试,重点突出了 Qwen 3.6 35B A3B,其将学术代码与研究论文进行映射的能力优于 Gemma 4 和 Nemotron 3 Nano 等模型。

我用来测试小型本地 LLM 智能程度的个人标准是,检查模型是否具备理解我为学术研究所编写代码的能力。我的研究涉及一些非常小众的话题,我怀疑大型语言模型的训练集中几乎不包含与之实质性相关的内容。几个月前,小型本地模型理解我代码的能力充其量只是聊胜于无,其中 [Devstral Small 2 表现最佳](https://www.reddit.com/r/LocalLLaMA/comments/1ry93gz/devstral_small_2_24b_severely_underrated/?utm_source=share&utm_medium=web3x&utm_name=web3xcss&utm_term=1&utm_content=share_button)。然而,现在许多小型开放权重模型采用了支持相当**长上下文**的方法(如门控 Delta 网络、混合 Mamba2、滑动窗口注意力机制),这使得它们变得***极其*****聪明**。我现在可以将整篇学术论文及其配套代码输入给模型,并要求它利用论文内容来分析代码的功能。我花了几天的时间对以下模型进行了实验: * Qwen 3.6 35B A3B * Qwen 3.6 27B * Gemma 4 26B A4B * Nemotron 3 Nano **所有**这些模型理解我代码的能力,都显著优于几个月前任何*小型*本地模型的表现。我也尝试了 Devstral Small 2,因为我最近从单张 16GB 显卡升级到了两张;但是,我无法在 32GB 的内存中容纳长上下文。我希望 Mistral 能发布一款采用门控 Delta 网络的新小型模型,因为我认为它有望夺回王座。[以下是我的详细发现](https://github.com/nathanlgabriel/paper_code_mapping_assessment/blob/main/README.md),内容是关于要求本地模型解释我的代码如何映射到其对应的研究论文。 长话短说:上述四种模型都是非常强大的本地模型,其中 Qwen 3.6 35B A3B 表现最为突出。我也倾向于认为,一位配合这四种模型中*任意一种*的智能人类,其能力胜过独立运行的 Opus 4.7(详见详细发现)。请告诉我你们的看法!
查看原文

相似文章

通俗版对比:Qwen3.6 35b-a3b 与 Gemma4-26b-a4b-it

Reddit r/LocalLLaMA

Gemma 4-26b-a4b-it 基本是个基础扎实、能稳妥完成任务的 B 等生。Qwen3.6-35b-a3b 则是考出 A+ 的优等生,做完任务后还有余力搞点锦上添花的发挥。在我的 16GB 显存显卡上,两款模型运行速度相当。测试环境为 Windows 下的 LM Studio,采用推荐推理设置。使用的模型:unsloth/gemma-4-26B-A4B-it-UD-Q4_K_S 与 AesSedai/Qwen3.6-35B-A3B IQ4_XS。大家有不同意见吗?**更新:** 看来我之前用 Gemma 4 的方式不太对。[Sadman782 的评论](https://www.redd

我在 MacBook Air M5 上对 21 款本地大模型进行了代码质量与速度的性能评测

Reddit r/LocalLLaMA

一位开发者在 MacBook Air M5 上使用 HumanEval+ 对 21 款本地大模型进行了基准测试,发现 Qwen 3.6 35B-A3B (MoE) 以 89.6% 的得分和 16.9 tok/s 的速度位居榜首,而 Qwen 2.5 Coder 7B 仅需 4.5 GB 内存即可达到 84.2% 的性能,拥有最佳的内存性价比。值得注意的是,Gemma 4 系列的表现远低于预期(31B 版本仅得 31.1%),这可能是受 Q4_K_M 量化策略的影响。