Qwen 3.6 27B 30GB 相同 top p: 98.358 ± 0.033 % vs UD Q8 K XL 33GB 相同 top p: 97.426 ± 0.041 %

Reddit r/LocalLLaMA 工具

摘要

一位社区研究员分享了为Qwen3.6-27B定制的量化方案,通过将高异常值子层保留为BF16格式,生成体积更小的30GB Q8 GGUF模型,在KLD和top-p指标上优于Unsloth的33GB Q8_K_XL变体。

这不是对 Unsloth 的批评,他们制作了很棒的量化版本,并真正推动了这个社区的发展。我一直在尝试根据 Q8 量化后哪些子层拥有最多异常值来对特定子层进行量化。基本思路是:先做 BF16 到 Q8\_0 的转换,然后观察量化后的值进行比较。我发现有几个层拥有**极其多**的异常值。我不确定这个方法是否更好,但结果很有趣!我仍然需要将 Q8 量化版本上传到 Hugging Face,但这里有一些初步基准。**一些局限性:** * 这里使用的数据集是 wiki.test.raw,参数为 -c 2048 和 --chunks 200 * 我认为其他数据集可能会显示出不同的异常值 * 我没有运行任何基准测试来展示在实际测试(例如编码)中的表现 * Q8-CC 的困惑度更差,但在 top-p 概率和 KL 散度上优于 UD Q8 K XL。 **快速总结:** **35776484480 (33.31GiB) Qwen3.6-27B-UD-Q8\_K\_XL.gguf** **32726111136 (30.47GiB) Qwen3.6-27B-Q8-CC.gguf** https://preview.redd.it/w0jhv0pxua5h1.png?width=824&format=png&auto=webp&s=fe78bad7b13099a52dfabe89728976fa079c1289 |指标|Qwen3.6-27B-UD-Q8\_K\_XL|Qwen3.6-27B-Q8-CC| |:-|:-|:-| |平均 KLD|0.012100 ± 0.000836|**0.011324** ± 0.000790| |最大 KLD|24.382509|**24.220026**| |99.9% KLD|2.473664|2.506243| |99.0% KLD|0.024188|0.023331| |95.0% KLD|0.005269|0.003847| |90.0% KLD|0.003549|0.002324| |中位数 KLD|0.000954|0.000499| |10.0% KLD|0.000009|0.000004| |5.0% KLD|0.000002|0.000001| |1.0% KLD|\-0.000001|\-0.000001| |0.1% KLD|\-0.000007|\-0.00001| |最小 KLD|\-0.000054|\-0.000112| https://preview.redd.it/yofs0o91va5h1.png?width=718&format=png&auto=webp&s=4989043a306ee5681ee316ccffa13a27be1d7b3d |指标|Qwen3.6-27B-UD-Q8\_K\_XL|Qwen3.6-27B-Q8-CC| |:-|:-|:-| |平均 Δp|\-0.005% ± 0.006%|\-0.027% ± 0.006%| |最大 Δp|99.59%|99.80%| |99.9% Δp|15.23%|13.59%| |99.0% Δp|4.09%|3.08%| |95.0% Δp|2.07%|1.56%| |90.0% Δp|1.19%|0.69%| |75.0% Δp|0.21%|0.08%| |中位数 Δp|0.00%|0.00%| |25.0% Δp|\-0.24%|\-0.08%| |10.0% Δp|\-1.23%|\-0.77%| |5.0% Δp|\-2.10%|\-1.68%| |1.0% Δp|\-4.16%|\-3.21%| |0.1% Δp|\-12.02%|\-16.60%| |最小 Δp|\-99.92%|\-99.92%| |RMS Δp|2.340% ± 0.080%|2.305% ± 0.084%| |相同 top-p 概率|97.426% ± 0.041%|**98.358%** ± 0.033%| Qwen3.6-27B-Q8-CC.gguf 量化的配方: /home/user/llm/llama.cpp/build/bin/llama-quantize \ --token-embedding-type bf16 \ --tensor-type output_norm=bf16 \ --tensor-type attn_k=bf16 \ --tensor-type attn_v=bf16 \ --tensor-type post_attention_norm=bf16 \ --tensor-type attn_q_norm=bf16 \ --tensor-type attn_k_norm=bf16 \ --tensor-type attn_norm=bf16 \ --tensor-type ssm_a=bf16 \ --tensor-type ssm_alpha=bf16 \ --tensor-type ssm_beta=bf16 \ --tensor-type ssm_conv1d=bf16 \ --tensor-type ssm_dt.bias=bf16 \ --tensor-type ssm_norm=bf16 \ --tensor-type nextn.eh_proj=bf16 \ --tensor-type blk.34.attn_gate=bf16 \ --tensor-type blk.19.attn_output=bf16 \ --tensor-type blk.11.attn_q=bf16 \ --tensor-type blk.63.attn_q=bf16 \ --tensor-type blk.27.attn_q=bf16 \ --tensor-type blk.0.attn_qkv=bf16 \ --tensor-type blk.37.attn_qkv=bf16 \ --tensor-type blk.28.attn_qkv=bf16 \ --tensor-type blk.6.ffn_down=bf16 \ --tensor-type blk.64.ffn_down=bf16 \ --tensor-type blk.0.ffn_down=bf16 \ --tensor-type blk.63.ffn_gate=bf16 \ --tensor-type blk.62.ffn_gate=bf16 \ --tensor-type blk.63.ffn_up=bf16 \ --tensor-type blk.62.ffn_up=bf16 \ --tensor-type blk.37.ssm_out=bf16 \ --tensor-type blk.0.ssm_out=bf16 \ --tensor-type blk.34.ssm_out=bf16 \ --output-tensor-type bf16 \ /home/user/llm/models/Qwen3.6-27B/Qwen3.6-27B-BF16-00001-of-00002.gguf \ /home/user/llm/models/Qwen3.6-27B/Qwen3.6-27B-Q8-CC.gguf \ q8_0 **原始数据:** 此处基准是 Qwen 3.6 27B BF16,KV 缓存为 BF16 **普通 Q8,无自定义:** ====== 困惑度统计 ====== 平均 PPL(Q) : 6.655412 ± 0.045246 平均 PPL(基准) : 6.636486 ± 0.044736 Cor(ln(PPL(Q)), ln(PPL(基准))): 99.52% 平均 ln(PPL(Q)/PPL(基准)) : 0.002848 ± 0.000667 平均 PPL(Q)/PPL(基准) : 1.002852 ± 0.000668 平均 PPL(Q)-PPL(基准) : 0.018927 ± 0.004442 ====== KL 散度统计 ====== 平均 KLD: 0.012557 ± 0.000850 最大 KLD: 24.464790 99.9% KLD: 2.964850 99.0% KLD: 0.028737 95.0% KLD: 0.003968 90.0% KLD: 0.002280 中位数 KLD: 0.000562 10.0% KLD: 0.000007 5.0% KLD: 0.000001 1.0% KLD: -0.000001 0.1% KLD: -0.000006 最小 KLD: -0.000057 ====== Token 概率统计 ====== 平均 Δp: -0.017 ± 0.006 % 最大 Δp: 99.818% 99.9% Δp: 15.451% 99.0% Δp: 3.027% 95.0% Δp: 1.402% 90.0% Δp: 0.821% 75.0% Δp: 0.152% 中位数 Δp: -0.000% 25.0% Δp: -0.179% 10.0% Δp: -0.885% 5.0% Δp: -1.477% 1.0% Δp: -3.127% 0.1% Δp: -13.658% 最小 Δp: -99.648% RMS Δp : 2.350 ± 0.085 % 相同 top-p 概率: 97.771 ± 0.038 % **Qwen3.6-27B-UD-Q8\_K\_XL.gguf** **35776484480 (33.31GiB) Qwen3.6-27B-UD-Q8\_K\_XL.gguf** ====== 困惑度统计 ====== 平均 PPL(Q) : 6.663686 ± 0.045346 平均 PPL(基准) : 6.636486 ± 0.044736 Cor(ln(PPL(Q)), ln(PPL(基准))): 99.54% 平均 ln(PPL(Q)/PPL(基准)) : 0.004090 ± 0.000656 平均 PPL(Q)/PPL(基准) : 1.004099 ± 0.000659 平均 PPL(Q)-PPL(基准) : 0.027200 ± 0.004384 ====== KL 散度统计 ====== 平均 KLD: 0.012100 ± 0.000836 最大 KLD: 24.382509 99.9% KLD: 2.473664 99.0% KLD: 0.024188 95.0% KLD: 0.005269 90.0% KLD: 0.003549 中位数 KLD: 0.000954 10.0% KLD: 0.000009 5.0% KLD: 0.000002 1.0% KLD: -0.000001 0.1% KLD: -0.000007 最小 KLD: -0.000054 ====== Token 概率统计 ====== 平均 Δp: -0.005 ± 0.006 % 最大 Δp: 99.594% 99.9% Δp: 15.232% 99.0% Δp: 4.091% 95.0% Δp: 2.066% 90.0% Δp: 1.186% 75.0% Δp: 0.214% 中位数 Δp: -0.000% 25.0% Δp: -0.236% 10.0% Δp: -1.229% 5.0% Δp: -2.097% 1.0% Δp: -4.163% 0.1% Δp: -12.016% 最小 Δp: -99.923% RMS Δp : 2.340 ± 0.080 % 相同 top-p 概率: 97.426 ± 0.041 % **Qwen3.6-27B-Q8-CC.gguf** **32726111136 (30.47GiB) Qwen3.6-27B-Q8-CC.gguf** 注意:这里的 PPL 似乎更差,但 Token 概率和 KL 散度看起来更好。 ====== 困惑度统计 ====== 平均 PPL(Q) : 6.681999 ± 0.045554 平均 PPL(基准) : 6.636486 ± 0.044736 Cor(ln(PPL(Q)), ln(PPL(基准))): 99.49% 平均 ln(PPL(Q)/PPL(基准)) : 0.006835 ± 0.000688 平均 PPL(Q)/PPL(基准) : 1.006858 ± 0.000693 平均 PPL(Q)-PPL(基准) : 0.045513 ± 0.004626 ====== KL 散度统计 ====== 平均 KLD: 0.011324 ± 0.000790 最大 KLD: 24.220026 99.9% KLD: 2.506243 99.0% KLD: 0.023331 95.0% KLD: 0.003847 90.0% KLD: 0.002324 中位数 KLD: 0.000499 10.0% KLD: 0.000004 5.0% KLD: 0.000001 1.0% KLD: -0.000001 0.1% KLD: -0.000010 最小 KLD: -0.000112 ====== Token 概率统计 ====== 平均 Δp: -0.027 ± 0.006 % 最大 Δp: 99.801% 99.9% Δp: 13.591% 99.0% Δp: 3.079% 95.0% Δp: 1.560% 90.0% Δp: 0.686% 75.0% Δp: 0.077% 中位数 Δp: 0.000% 25.0% Δp: -0.084% 10.0% Δp: -0.770% 5.0% Δp: -1.682% 1.0% Δp: -3.208% 0.1% Δp: -16.596% 最小 Δp: -99.918% RMS Δp : 2.305 ± 0.084 % 相同 top-p 概率: 98.358 ± 0.033 % 额外加分:以下是另一个量化版本,仍然比 UD Q8 K XL 小,并且在多个指标上表现更好。 **Qwen3.6-27B-Q8-CC-5.gguf** **35144389536 (32.73GB) Qwen3.6-27B-Q8-CC-5.gguf** ====== 困惑度统计 ====== 平均 PPL(Q) : 6.670677 ± 0.045414 平均 PPL(基准) : 6.636486 ± 0.044736 Cor(ln(PPL(Q)), ln(PPL(基准))): 99.59% 平均 ln(PPL(Q)/PPL(基准)) : 0.005139 ± 0.000618 平均 PPL(Q)/PPL(基准) : 1.005152 ± 0.000621 平均 PPL(Q)-PPL(基准) : 0.034192 ± 0.004145 ====== KL 散度统计 ====== 平均 KLD: 0.010970 ± 0.000828 最大 KLD: 25.486208 99.9% KLD: 1.975405 99.0% KLD: 0.021026 95.0% KLD: 0.003457 90.0% KLD: 0.002151 中位数 KLD: 0.000438 10.0% KLD: 0.000003 5.0% KLD: 0.000001 1.0% KLD: -0.000002 0.1% KLD: -0.000011 最小 KLD: -0.000480 ====== Token 概率统计 ====== 平均 Δp: -0.020 ± 0.006 % 最大 Δp: 99.828% 99.9% Δp: 13.630% 99.0% Δp: 3.038% 95.0% Δp: 1.474% 90.0% Δp: 0.643% 75.0% Δp: 0.072% 中位数 Δp: 0.000% 25.0% Δp: -0.073% 10.0% Δp: -0.714% 5.0% Δp: -1.669% 1.0% Δp: -3.113% 0.1% Δp: -12.475% 最小 Δp: -99.916% RMS Δp : 2.201 ± 0.084 % 相同 top-p 概率: 98.453 ± 0.032 % 以下是 CC-5 的配方 /home/user/llm/llama.cpp/build/bin/llama-quantize \ --token-embedding-type bf16 \ --te
查看原文

相似文章

Qwen3.6-27B 量化基准测试

Reddit r/LocalLLaMA

本文使用 KLD 和 Same Top P 指标,对多种 Qwen3.6-27B 量化版本(Q8 至 Q2)进行基准测试,对比了 Unsloth 和 mradermacher 等提供者的量化结果,并给出了质量与大小权衡的建议。

Qwen3.6 27B Pure Quant: 16 GB 显存下 40 tok/s

Reddit r/LocalLLaMA

使用纯 Q4_K_M 方法对 Qwen3.6 27B 进行量化的版本完全适配 16 GB 显存,在 MTP 下可实现高达 40 tok/s 的 token 生成速度,相比其他 GGUF 变体显著缩小模型体积。

Qwen 3.6 35B GGUF:跨GPU和CPU的NTP vs MTP量化结果

Reddit r/LocalLLaMA

ByteShape发布了Qwen 3.6 35B GGUF的NTP和MTP变体量化,并在多个GPU和CPU上进行了详细基准测试,发现更大的量化模型通常优于较小的模型,MTP以内存为代价提供了GPU速度提升。