Qwen3.6 27B Pure Quant: 16 GB 显存下 40 tok/s
摘要
使用纯 Q4_K_M 方法对 Qwen3.6 27B 进行量化的版本完全适配 16 GB 显存,在 MTP 下可实现高达 40 tok/s 的 token 生成速度,相比其他 GGUF 变体显著缩小模型体积。
大家好!我想分享我的实验结果:让 **Qwen3.6 27B** 的 **Q4_K_M** 版本适配我的 RTX 5060 Ti 16 GB。受到 u/Due-Project-7507 在 [Ununnilium/Qwen3.6-27B-IQ4_XS-pure-GGUF](https://huggingface.co/Ununnilium/Qwen3.6-27B-IQ4_XS-pure-GGUF) 上工作的启发。使用同样的 `pure` 量化方法,我成功创建了一个完全适配 16 GB 显存的 Q4_K_M gguf 文件。
模型地址:[https://huggingface.co/huytd189/Qwen3.6-27B-pure-GGUF](https://huggingface.co/huytd189/Qwen3.6-27B-pure-GGUF) 有两个版本:[Q4_K_M MTP(15.4 GB)](https://huggingface.co/huytd189/Qwen3.6-27B-pure-GGUF?show_file_info=Qwen3.6-27B-MTP-Q4_K_M-pure.gguf) 和 [Q4_K_M 非 MTP(15.1 GB)](https://huggingface.co/huytd189/Qwen3.6-27B-pure-GGUF?show_file_info=Qwen3.6-27B-Q4_K_M-pure.gguf)。
你可以这样下载 GGUF 并使用最新的 llama.cpp 运行:
llama-server -m Qwen3.6-27B-MTP-Q4_K_M-pure.gguf -fitt 128 -c 65536 -fa on -np 1 -ctk q5_0 -ctv q5_0 -ctxcp 18 --no-mmap --mlock --no-warmup --chat-template-kwargs '{\"preserve_thinking\": true}' --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.0 --presence-penalty 0.0 --repeat-penalty 1.0 -ub 256 -b 1024 -ngl 99 --spec-type draft-mtp --spec-draft-n-max 2
**TOKEN 速度** 使用 MTP 版本时,tg 达到了 40 tok/s,但 pp 较慢;而非 MTP 版本的 pp 和 tg 都更高,均为 24 tok/s。
|版本|提示处理|Token 生成|
|:-|:-|:-|
|MTP|195 tok/s|**40 tok/s**|
|Non MTP|715 tok/s|**24 tok/s**|
**模型大小** https://preview.redd.it/74ehd6vyvr2h1.png?width=5845&format=png&auto=webp&s=a66ba493ea1eb7fb61c999a47670c093700b9a97
**MTP 版本:**
|模型|大小|
|:-|:-|
|**huytd/Qwen3.6-27B-pure-GGUF Q4\\_K\\_M MTP**|**15.4 GB**|
|froggeric/Qwen3.6-27B-MTP-GGUF Q4\\_K\\_M MTP|16.8 GB|
|unsloth/Qwen3.6-27B-MTP-GGUF Q4\\_K\\_M MTP|17.1 GB|
**非 MTP 版本:**
|模型|大小|
|:-|:-|
|**huytd/Qwen3.6-27B-pure-GGUF Q4\\_K\\_M**|**15.1 GB**|
|mradermacher/Qwen3.6-27B-GGUF Q4\\_K\\_M|16.5 GB|
|unsloth/Qwen3.6-27B-GGUF Q4\\_K\\_M|16.8 GB|
|bartowski/Qwen\\_Qwen3.6-27B-GGUF Q4\\_K\\_M|18 GB|
**困惑度差异** 目前我没有能运行 KLD 基准测试的硬件,所以这里只展示 PPL 差异,但你应该能从中了解到质量与体积缩减之间的权衡。
https://preview.redd.it/lepgzq18wr2h1.png?width=4968&format=png&auto=webp&s=ece2b3f99f1406d0f46e3665e31b65a3b50fe7e7
|变体|PPL|差值|
|:-|:-|:-|
|**BF16 MTP**|**7.5992 +/- 0.02890**|**基线**|
|This Q4\\_K\\_M MTP|7.7699 +/- 0.02972|\+0.1707|
|Unsloth's Q4\\_K\\_M MTP|7.6545 +/- 0.02913|\+0.0553|
|**BF16 non-MTP**|**7.5992 +/- 0.02890**|**基线**|
|This Q4\\_K\\_M non-MTP|7.7043 +/- 0.02935|\+0.1051|
|Unsloth's Q4\\_K\\_M non-MTP|7.6532 +/- 0.02912|\+0.0540|
相似文章
@TeksEdge: Unsloth 发布了目前我测试过的最快的 Qwen3.6-27B MTP GGUF。是时候升级了。与之前的 GGUF 相比,Q4/Q6 XL 版本的推理速度快了约 55%…
Unsloth 发布了优化后的 Qwen3.6-27B MTP 模型 GGUF 版本,与前序量化版本相比,推理速度显著提升(在 RTX 5090 上最高可达 114 tok/s)。
Qwen 3.6 35B GGUF:跨GPU和CPU的NTP vs MTP量化结果
ByteShape发布了Qwen 3.6 35B GGUF的NTP和MTP变体量化,并在多个GPU和CPU上进行了详细基准测试,发现更大的量化模型通常优于较小的模型,MTP以内存为代价提供了GPU速度提升。
@DeepTechTR: Qwen 3.6 27B 在16 GB VRAM下速度极快!Pure Quant技术带来的影响——27B模型流畅运行的时代已来临……
Qwen 3.6 27B 在16 GB VRAM上运行快速,得益于'Pure Quant'技术,通过MTP达到40 tokens/s,并支持64k上下文,使得本地AI能在RTX 4060 Ti等消费级GPU上运行。
@iotcoi:Qwen3.6-27B-FP8 + Dflash + DDTree,256k 上下文,10 个智能体,单颗 49W GB10 上峰值 200 tokens/s,平均解码 136 tokens/s
量化版 27B Qwen3.6 在单颗 49W GB10 GPU 上借助 Dflash+DDTree 优化,256k 上下文、10 智能体并发,峰值达 200 tok/s,平均 136 tok/s。
Qwen 3.6 27B 30GB 相同 top p: 98.358 ± 0.033 % vs UD Q8 K XL 33GB 相同 top p: 97.426 ± 0.041 %
一位社区研究员分享了为Qwen3.6-27B定制的量化方案,通过将高异常值子层保留为BF16格式,生成体积更小的30GB Q8 GGUF模型,在KLD和top-p指标上优于Unsloth的33GB Q8_K_XL变体。