Qwen3.6 27B Pure Quant: 16 GB 显存下 40 tok/s

Reddit r/LocalLLaMA 2026/05/22 23:29 模型

qwen quantization gguf vram inference-speed open-source

摘要

使用纯 Q4_K_M 方法对 Qwen3.6 27B 进行量化的版本完全适配 16 GB 显存，在 MTP 下可实现高达 40 tok/s 的 token 生成速度，相比其他 GGUF 变体显著缩小模型体积。

大家好！我想分享我的实验结果：让 **Qwen3.6 27B** 的 **Q4_K_M** 版本适配我的 RTX 5060 Ti 16 GB。受到 u/Due-Project-7507 在 [Ununnilium/Qwen3.6-27B-IQ4_XS-pure-GGUF](https://huggingface.co/Ununnilium/Qwen3.6-27B-IQ4_XS-pure-GGUF) 上工作的启发。使用同样的 `pure` 量化方法，我成功创建了一个完全适配 16 GB 显存的 Q4_K_M gguf 文件。模型地址：[https://huggingface.co/huytd189/Qwen3.6-27B-pure-GGUF](https://huggingface.co/huytd189/Qwen3.6-27B-pure-GGUF) 有两个版本：[Q4_K_M MTP（15.4 GB）](https://huggingface.co/huytd189/Qwen3.6-27B-pure-GGUF?show_file_info=Qwen3.6-27B-MTP-Q4_K_M-pure.gguf) 和 [Q4_K_M 非 MTP（15.1 GB）](https://huggingface.co/huytd189/Qwen3.6-27B-pure-GGUF?show_file_info=Qwen3.6-27B-Q4_K_M-pure.gguf)。你可以这样下载 GGUF 并使用最新的 llama.cpp 运行： llama-server -m Qwen3.6-27B-MTP-Q4_K_M-pure.gguf -fitt 128 -c 65536 -fa on -np 1 -ctk q5_0 -ctv q5_0 -ctxcp 18 --no-mmap --mlock --no-warmup --chat-template-kwargs '{\"preserve_thinking\": true}' --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.0 --presence-penalty 0.0 --repeat-penalty 1.0 -ub 256 -b 1024 -ngl 99 --spec-type draft-mtp --spec-draft-n-max 2 **TOKEN 速度** 使用 MTP 版本时，tg 达到了 40 tok/s，但 pp 较慢；而非 MTP 版本的 pp 和 tg 都更高，均为 24 tok/s。 |版本|提示处理|Token 生成| |:-|:-|:-| |MTP|195 tok/s|**40 tok/s**| |Non MTP|715 tok/s|**24 tok/s**| **模型大小** https://preview.redd.it/74ehd6vyvr2h1.png?width=5845&format=png&auto=webp&s=a66ba493ea1eb7fb61c999a47670c093700b9a97 **MTP 版本：** |模型|大小| |:-|:-| |**huytd/Qwen3.6-27B-pure-GGUF Q4\\_K\\_M MTP**|**15.4 GB**| |froggeric/Qwen3.6-27B-MTP-GGUF Q4\\_K\\_M MTP|16.8 GB| |unsloth/Qwen3.6-27B-MTP-GGUF Q4\\_K\\_M MTP|17.1 GB| **非 MTP 版本：** |模型|大小| |:-|:-| |**huytd/Qwen3.6-27B-pure-GGUF Q4\\_K\\_M**|**15.1 GB**| |mradermacher/Qwen3.6-27B-GGUF Q4\\_K\\_M|16.5 GB| |unsloth/Qwen3.6-27B-GGUF Q4\\_K\\_M|16.8 GB| |bartowski/Qwen\\_Qwen3.6-27B-GGUF Q4\\_K\\_M|18 GB| **困惑度差异** 目前我没有能运行 KLD 基准测试的硬件，所以这里只展示 PPL 差异，但你应该能从中了解到质量与体积缩减之间的权衡。 https://preview.redd.it/lepgzq18wr2h1.png?width=4968&format=png&auto=webp&s=ece2b3f99f1406d0f46e3665e31b65a3b50fe7e7 |变体|PPL|差值| |:-|:-|:-| |**BF16 MTP**|**7.5992 +/- 0.02890**|**基线**| |This Q4\\_K\\_M MTP|7.7699 +/- 0.02972|\+0.1707| |Unsloth's Q4\\_K\\_M MTP|7.6545 +/- 0.02913|\+0.0553| |**BF16 non-MTP**|**7.5992 +/- 0.02890**|**基线**| |This Q4\\_K\\_M non-MTP|7.7043 +/- 0.02935|\+0.1051| |Unsloth's Q4\\_K\\_M non-MTP|7.6532 +/- 0.02912|\+0.0540|

查看原文

Qwen3.6 27B Pure Quant: 16 GB 显存下 40 tok/s

相似文章

@TeksEdge: Unsloth 发布了目前我测试过的最快的 Qwen3.6-27B MTP GGUF。是时候升级了。与之前的 GGUF 相比，Q4/Q6 XL 版本的推理速度快了约 55%…

Qwen 3.6 35B GGUF：跨GPU和CPU的NTP vs MTP量化结果

Qwen3.6 27B 在 RTX 5090 上，调整 MTP/缓存设置后的 6.4k 采样 token/s 分布

@DeepTechTR: Qwen 3.6 27B 在16 GB VRAM下速度极快！Pure Quant技术带来的影响——27B模型流畅运行的时代已来临……

Qwen3.6:35b UD Q4_K_M 在 Nvidia P40 上实现 80 tok/s

提交意见反馈