Qwen 3.6 35B GGUF:跨GPU和CPU的NTP vs MTP量化结果
摘要
ByteShape发布了Qwen 3.6 35B GGUF的NTP和MTP变体量化,并在多个GPU和CPU上进行了详细基准测试,发现更大的量化模型通常优于较小的模型,MTP以内存为代价提供了GPU速度提升。
嘿 r/LocalLLaMA,我们已经发布了ByteShape Qwen 3.6 35B GGUF的两个系列量化:标准NTP(Next Token Prediction,即非MTP)和MTP。
[博客](https://byteshape.com/blogs/Qwen3.6-35B-A3B/) / [下载NTP模型](https://huggingface.co/byteshape/Qwen3.6-35B-A3B-GGUF) / [下载MTP模型](https://huggingface.co/byteshape/Qwen3.6-35B-A3B-MTP-GGUF)
**简要总结**
* 对于NTP,“选择能装下的最大量化”这一策略效果出奇地好。
* 更低的bpw并不自动更优:我们最大的模型在质量/速度(包括提示处理和令牌生成)上很难被击败。
* MTP带来了显著的GPU生成速度提升,通常在20–40%左右,但额外的内存占用可能会改变适合的模型选择。
* MTP的速度提升严重依赖工作负载。
* CPU上的MTP在我们的测试中并不理想,因此我们目前仍推荐在CPU上使用NTP。
* 本次发布排除了MMLU,因为Qwen 3.6在全精度下表现出答案格式合规性问题,使其成为噪音较大的量化比较信号。
本次发布,我们试图让比较更像一个小型硬件研究,而不仅仅是模型发布。我们对原始模型和更广泛的量化变体在RTX 4090、5090、Pro 6000、4080、5060 Ti,以及Intel i7、Intel Ultra 7、Ryzen 9和Raspberry Pi 5上进行了基准测试。
感谢参与比较的量化提供者:Bartowski、Unsloth、Mudler和AesSedai。我们从每个量化提供者中挑选了几个最受推荐的量化,因为你可能不会关心我们是否花时间评估每一个量化(或者等3.7出来后再看 ;))。
NTP的主要结果有点反直觉。通常,你会预期更小bpw的量化在速度上明显胜出。但我们最大的发布变体不仅在质量上保持竞争力,在提示处理和令牌生成上也是如此。**因此,不应盲目最小化bpw:如果更大的模型适合你的内存和上下文预算,它可能仍然是更好的选择。** 存在特定硬件的例外,尤其是在16GB设备和Raspberry Pi 5上,因此我们将完整的建议和图表放在博客中,而不是在此压缩所有内容。
对于MTP,权衡则不同。在GPU上,我们看到了显著的生成速度提升,通常在20-40%左右(这严重依赖工作负载,需要你自己测试)。但MTP也增加了运行时内存,因此在16GB GPU上,较大的MTP模型在我们的上下文设置下不再实用,使得GPU-2 MTP模型成为可用的推荐。MTP的结果也支持同样的bpw观察:在某些情况下,较大的模型能在吞吐量上基本赶上较小的模型。CPU的MTP在我们的测试中并不理想。提示处理在CPU上已经较慢,MTP使其更糟。**目前,我们仍推荐在CPU上使用NTP。**
方法论说明:我们发现Qwen 3.6存在答案格式合规性问题,这在Qwen 3.5中没有出现。在多个MMLU案例中,全精度模型似乎知道答案,但没有以基准测试预期的严格格式进行回答,尽管提示是5-shot的。由于这已经是基线模型的行为,而非量化伪影,我们在本次发布中排除了MMLU。**因此,重要的结论是:** 对于这个模型,“选择能装下的最大量化”这一策略在NTP上效果出奇地好。MTP在GPU上值得尝试,前提是你有足够的内存余量,但它会改变适合的模型,并且不会自动在CPU上更好。我们尽量让Reddit帖子保持简短。博客中有完整的图表、实验、硬件分解和方法细节。
相似文章
@TeksEdge: Unsloth 发布了目前我测试过的最快的 Qwen3.6-27B MTP GGUF。是时候升级了。与之前的 GGUF 相比,Q4/Q6 XL 版本的推理速度快了约 55%…
Unsloth 发布了优化后的 Qwen3.6-27B MTP 模型 GGUF 版本,与前序量化版本相比,推理速度显著提升(在 RTX 5090 上最高可达 114 tok/s)。
Qwen3.6 27B Pure Quant: 16 GB 显存下 40 tok/s
使用纯 Q4_K_M 方法对 Qwen3.6 27B 进行量化的版本完全适配 16 GB 显存,在 MTP 下可实现高达 40 tok/s 的 token 生成速度,相比其他 GGUF 变体显著缩小模型体积。
Qwen 3.6 35B A3B 与 Qwen 3.5 122B A10B 对比
用户反馈,尽管基准测试表现亮眼,Qwen 3.5 122B 在多步任务上大幅领先 Qwen 3.6 35B,怀疑是量化或部署配置问题。
@Snixtp: https://x.com/Snixtp/status/2055734339346768225
某用户使用llama.cpp在单张RTX 3090上对Qwen3.6 27B的MTP变体与普通版本进行了基准测试,发现MTP在长上下文(32k-64k)下生成速度最高可提升2.37倍,但预填充较慢且暂不支持并发。
Qwen 3.6 27B 30GB 相同 top p: 98.358 ± 0.033 % vs UD Q8 K XL 33GB 相同 top p: 97.426 ± 0.041 %
一位社区研究员分享了为Qwen3.6-27B定制的量化方案,通过将高异常值子层保留为BF16格式,生成体积更小的30GB Q8 GGUF模型,在KLD和top-p指标上优于Unsloth的33GB Q8_K_XL变体。