我们构建了一个Qwen3.5 0.8B的校准感知Q4_K_M量化版,与纯llama.cpp Q4_K_M相比,恢复了96.5%的BF16性能差距(SpectralQuant)

Reddit r/LocalLLaMA 工具

摘要

Qwen3.5 0.8B使用SpectralQuant的校准感知Q4_K_M量化版,与标准llama.cpp Q4_K_M量化版相比,恢复了96.5%的BF16性能差距。

暂无内容
查看原文

相似文章

Qwen3.6-27B 量化基准测试

Reddit r/LocalLLaMA

本文使用 KLD 和 Same Top P 指标,对多种 Qwen3.6-27B 量化版本(Q8 至 Q2)进行基准测试,对比了 Unsloth 和 mradermacher 等提供者的量化结果,并给出了质量与大小权衡的建议。

Qwen3.5-122B-Q5-MTP - Qwen3.5-122B-Q6-MTP

Reddit r/LocalLLaMA

在Strix Halo上使用llama.cpp进行多token预测的Qwen3.5-122B Q5和Q6量化模型的基准对比,吞吐量分别为20.24 t/s和17.17 t/s。