我绘制了Qwen3.6-35B-A3B和Gemma4-E2B QAT模型的KV缓存量化的KL散度图

Reddit r/LocalLLaMA 2026/06/23 15:12 论文

kv-cache quantization kld qwen gemma4 model-analysis efficient-inference

摘要

作者绘制了Qwen3.6-35B-A3B和Gemma4-E2B QAT模型的KV缓存量化的KL散度图。

暂无内容

查看原文

相似文章

Gemma 4 QAT 31B 对 KV 缓存量化的响应也更好

Reddit r/LocalLLaMA

Gemma 4 QAT 31B 模型在 KV 缓存量化时表现出更好的行为，表明推理效率得到提升。

这是我的KV缓存量化基准测试：TurboQuant被高估但被TCQ拯救，q5值得更多关注，对称q8可能浪费显存

Reddit r/LocalLLaMA

一项详细的基准测试，使用PPL和KLD指标在Qwen 3.6 27B上比较KV缓存量化方法（TurboQuant、TCQ、q4、q5、q8），发现TCQ改进了低位量化，不对称KV在相同大小下优于对称KV，且q8通常过于夸张。包含分析和数据，见链接文章。

受 TurboQuant 启发的 KV 缓存量化方案的统计推断与质量评估

arXiv cs.LG

本文分析了受 TurboQuant 启发的 KV 缓存量化方案，利用统计推断和新的 6D 误差框架来评估 KL 散度、几何误差等质量指标。

@anirudhbv_ce: 介绍 SpectralQuant.. 来拯救您的 KV 缓存 :)

X AI KOLs Timeline

SpectralQuant 是一种新的 KV 缓存量化技术，在 Mistral 7B 上实现了 5.95 倍压缩，仅带来 7.5% 的困惑度开销，显著优于 TurboQuant，且每个模型只需 15 秒校准。

KVarN：华为推出的原生 vLLM KV 缓存量化后端

Hacker News Top

华为 CSL 发布 KVarN，这是一个原生 vLLM 注意力后端，专为 KV 缓存量化设计。它无需校准即可实现 3-5 倍的 KV 缓存容量提升，以及高达约 1.3 倍于 FP16 的吞吐量。在 Qwen3-32B 等模型上，其吞吐量最高可达 TurboQuant 的约 2.4 倍，同时保持与 FP16 相当的精度。

提交意见反馈