Qwen 3.6 35B GGUF：跨GPU和CPU的NTP vs MTP量化结果

Reddit r/LocalLLaMA 2026/05/20 15:42 模型

qwen gguf quantization ntp mtp benchmarking local-llm

摘要

ByteShape发布了Qwen 3.6 35B GGUF的NTP和MTP变体量化，并在多个GPU和CPU上进行了详细基准测试，发现更大的量化模型通常优于较小的模型，MTP以内存为代价提供了GPU速度提升。

嘿 r/LocalLLaMA，我们已经发布了ByteShape Qwen 3.6 35B GGUF的两个系列量化：标准NTP（Next Token Prediction，即非MTP）和MTP。 [博客](https://byteshape.com/blogs/Qwen3.6-35B-A3B/) / [下载NTP模型](https://huggingface.co/byteshape/Qwen3.6-35B-A3B-GGUF) / [下载MTP模型](https://huggingface.co/byteshape/Qwen3.6-35B-A3B-MTP-GGUF) **简要总结** * 对于NTP，“选择能装下的最大量化”这一策略效果出奇地好。 * 更低的bpw并不自动更优：我们最大的模型在质量/速度（包括提示处理和令牌生成）上很难被击败。 * MTP带来了显著的GPU生成速度提升，通常在20–40%左右，但额外的内存占用可能会改变适合的模型选择。 * MTP的速度提升严重依赖工作负载。 * CPU上的MTP在我们的测试中并不理想，因此我们目前仍推荐在CPU上使用NTP。 * 本次发布排除了MMLU，因为Qwen 3.6在全精度下表现出答案格式合规性问题，使其成为噪音较大的量化比较信号。本次发布，我们试图让比较更像一个小型硬件研究，而不仅仅是模型发布。我们对原始模型和更广泛的量化变体在RTX 4090、5090、Pro 6000、4080、5060 Ti，以及Intel i7、Intel Ultra 7、Ryzen 9和Raspberry Pi 5上进行了基准测试。感谢参与比较的量化提供者：Bartowski、Unsloth、Mudler和AesSedai。我们从每个量化提供者中挑选了几个最受推荐的量化，因为你可能不会关心我们是否花时间评估每一个量化（或者等3.7出来后再看 ;)）。 NTP的主要结果有点反直觉。通常，你会预期更小bpw的量化在速度上明显胜出。但我们最大的发布变体不仅在质量上保持竞争力，在提示处理和令牌生成上也是如此。**因此，不应盲目最小化bpw：如果更大的模型适合你的内存和上下文预算，它可能仍然是更好的选择。** 存在特定硬件的例外，尤其是在16GB设备和Raspberry Pi 5上，因此我们将完整的建议和图表放在博客中，而不是在此压缩所有内容。对于MTP，权衡则不同。在GPU上，我们看到了显著的生成速度提升，通常在20-40%左右（这严重依赖工作负载，需要你自己测试）。但MTP也增加了运行时内存，因此在16GB GPU上，较大的MTP模型在我们的上下文设置下不再实用，使得GPU-2 MTP模型成为可用的推荐。MTP的结果也支持同样的bpw观察：在某些情况下，较大的模型能在吞吐量上基本赶上较小的模型。CPU的MTP在我们的测试中并不理想。提示处理在CPU上已经较慢，MTP使其更糟。**目前，我们仍推荐在CPU上使用NTP。** 方法论说明：我们发现Qwen 3.6存在答案格式合规性问题，这在Qwen 3.5中没有出现。在多个MMLU案例中，全精度模型似乎知道答案，但没有以基准测试预期的严格格式进行回答，尽管提示是5-shot的。由于这已经是基线模型的行为，而非量化伪影，我们在本次发布中排除了MMLU。**因此，重要的结论是：** 对于这个模型，“选择能装下的最大量化”这一策略在NTP上效果出奇地好。MTP在GPU上值得尝试，前提是你有足够的内存余量，但它会改变适合的模型，并且不会自动在CPU上更好。我们尽量让Reddit帖子保持简短。博客中有完整的图表、实验、硬件分解和方法细节。

查看原文

Qwen 3.6 35B GGUF：跨GPU和CPU的NTP vs MTP量化结果

相似文章

@TeksEdge: Unsloth 发布了目前我测试过的最快的 Qwen3.6-27B MTP GGUF。是时候升级了。与之前的 GGUF 相比，Q4/Q6 XL 版本的推理速度快了约 55%…

Qwen3.6 27B Pure Quant: 16 GB 显存下 40 tok/s

Qwen 3.6 35B A3B 与 Qwen 3.5 122B A10B 对比

@Snixtp: https://x.com/Snixtp/status/2055734339346768225

Qwen 3.6 27B 30GB 相同 top p: 98.358 ± 0.033 % vs UD Q8 K XL 33GB 相同 top p: 97.426 ± 0.041 %

提交意见反馈