Qwen3.6 27B Pure Quant: 16 GB 显存下 40 tok/s

Reddit r/LocalLLaMA 模型

摘要

使用纯 Q4_K_M 方法对 Qwen3.6 27B 进行量化的版本完全适配 16 GB 显存,在 MTP 下可实现高达 40 tok/s 的 token 生成速度,相比其他 GGUF 变体显著缩小模型体积。

大家好!我想分享我的实验结果:让 **Qwen3.6 27B** 的 **Q4_K_M** 版本适配我的 RTX 5060 Ti 16 GB。受到 u/Due-Project-7507 在 [Ununnilium/Qwen3.6-27B-IQ4_XS-pure-GGUF](https://huggingface.co/Ununnilium/Qwen3.6-27B-IQ4_XS-pure-GGUF) 上工作的启发。使用同样的 `pure` 量化方法,我成功创建了一个完全适配 16 GB 显存的 Q4_K_M gguf 文件。 模型地址:[https://huggingface.co/huytd189/Qwen3.6-27B-pure-GGUF](https://huggingface.co/huytd189/Qwen3.6-27B-pure-GGUF) 有两个版本:[Q4_K_M MTP(15.4 GB)](https://huggingface.co/huytd189/Qwen3.6-27B-pure-GGUF?show_file_info=Qwen3.6-27B-MTP-Q4_K_M-pure.gguf) 和 [Q4_K_M 非 MTP(15.1 GB)](https://huggingface.co/huytd189/Qwen3.6-27B-pure-GGUF?show_file_info=Qwen3.6-27B-Q4_K_M-pure.gguf)。 你可以这样下载 GGUF 并使用最新的 llama.cpp 运行: llama-server -m Qwen3.6-27B-MTP-Q4_K_M-pure.gguf -fitt 128 -c 65536 -fa on -np 1 -ctk q5_0 -ctv q5_0 -ctxcp 18 --no-mmap --mlock --no-warmup --chat-template-kwargs '{\"preserve_thinking\": true}' --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.0 --presence-penalty 0.0 --repeat-penalty 1.0 -ub 256 -b 1024 -ngl 99 --spec-type draft-mtp --spec-draft-n-max 2 **TOKEN 速度** 使用 MTP 版本时,tg 达到了 40 tok/s,但 pp 较慢;而非 MTP 版本的 pp 和 tg 都更高,均为 24 tok/s。 |版本|提示处理|Token 生成| |:-|:-|:-| |MTP|195 tok/s|**40 tok/s**| |Non MTP|715 tok/s|**24 tok/s**| **模型大小** https://preview.redd.it/74ehd6vyvr2h1.png?width=5845&format=png&auto=webp&s=a66ba493ea1eb7fb61c999a47670c093700b9a97 **MTP 版本:** |模型|大小| |:-|:-| |**huytd/Qwen3.6-27B-pure-GGUF Q4\\_K\\_M MTP**|**15.4 GB**| |froggeric/Qwen3.6-27B-MTP-GGUF Q4\\_K\\_M MTP|16.8 GB| |unsloth/Qwen3.6-27B-MTP-GGUF Q4\\_K\\_M MTP|17.1 GB| **非 MTP 版本:** |模型|大小| |:-|:-| |**huytd/Qwen3.6-27B-pure-GGUF Q4\\_K\\_M**|**15.1 GB**| |mradermacher/Qwen3.6-27B-GGUF Q4\\_K\\_M|16.5 GB| |unsloth/Qwen3.6-27B-GGUF Q4\\_K\\_M|16.8 GB| |bartowski/Qwen\\_Qwen3.6-27B-GGUF Q4\\_K\\_M|18 GB| **困惑度差异** 目前我没有能运行 KLD 基准测试的硬件,所以这里只展示 PPL 差异,但你应该能从中了解到质量与体积缩减之间的权衡。 https://preview.redd.it/lepgzq18wr2h1.png?width=4968&format=png&auto=webp&s=ece2b3f99f1406d0f46e3665e31b65a3b50fe7e7 |变体|PPL|差值| |:-|:-|:-| |**BF16 MTP**|**7.5992 +/- 0.02890**|**基线**| |This Q4\\_K\\_M MTP|7.7699 +/- 0.02972|\+0.1707| |Unsloth's Q4\\_K\\_M MTP|7.6545 +/- 0.02913|\+0.0553| |**BF16 non-MTP**|**7.5992 +/- 0.02890**|**基线**| |This Q4\\_K\\_M non-MTP|7.7043 +/- 0.02935|\+0.1051| |Unsloth's Q4\\_K\\_M non-MTP|7.6532 +/- 0.02912|\+0.0540|
查看原文

相似文章

Qwen 3.6 35B GGUF:跨GPU和CPU的NTP vs MTP量化结果

Reddit r/LocalLLaMA

ByteShape发布了Qwen 3.6 35B GGUF的NTP和MTP变体量化,并在多个GPU和CPU上进行了详细基准测试,发现更大的量化模型通常优于较小的模型,MTP以内存为代价提供了GPU速度提升。