我们构建了一个Qwen3.5 0.8B的校准感知Q4_K_M量化版，与纯llama.cpp Q4_K_M相比，恢复了96.5%的BF16性能差距（SpectralQuant）

Reddit r/LocalLLaMA 2026/06/27 11:29 工具

quantization calibration qwen model-compression efficiency spectralquant llama-cpp

摘要

Qwen3.5 0.8B使用SpectralQuant的校准感知Q4_K_M量化版，与标准llama.cpp Q4_K_M量化版相比，恢复了96.5%的BF16性能差距。

暂无内容

查看原文

相似文章

Reddit r/LocalLLaMA

本文对比了在RTX 3090 24GB上运行Qwen 3.6 27B使用的llama.cpp后端，发现搭配IQ4_KS量化的ik_llama.cpp性能最佳（预填充1261 tok/s，解码72.9 tok/s）。

Reddit r/LocalLLaMA

本文使用 KLD 和 Same Top P 指标，对多种 Qwen3.6-27B 量化版本（Q8 至 Q2）进行基准测试，对比了 Unsloth 和 mradermacher 等提供者的量化结果，并给出了质量与大小权衡的建议。

X AI KOLs Timeline

用户报告称 Qwen3.6 27B NVFP4 量化版本在编码方面不可靠，尽管吞吐量高但质量不稳定，并建议 Q4_K_M 可能更稳定。

Reddit r/LocalLLaMA

一位社区研究员分享了为Qwen3.6-27B定制的量化方案，通过将高异常值子层保留为BF16格式，生成体积更小的30GB Q8 GGUF模型，在KLD和top-p指标上优于Unsloth的33GB Q8_K_XL变体。

Reddit r/LocalLLaMA

在Strix Halo上使用llama.cpp进行多token预测的Qwen3.5-122B Q5和Q6量化模型的基准对比，吞吐量分别为20.24 t/s和17.17 t/s。