我绘制了Qwen3.6-35B-A3B和Gemma4-E2B QAT模型的KV缓存量化的KL散度图
摘要
作者绘制了Qwen3.6-35B-A3B和Gemma4-E2B QAT模型的KV缓存量化的KL散度图。
暂无内容
相似文章
Gemma 4 QAT 31B 对 KV 缓存量化的响应也更好
Gemma 4 QAT 31B 模型在 KV 缓存量化时表现出更好的行为,表明推理效率得到提升。
这是我的KV缓存量化基准测试:TurboQuant被高估但被TCQ拯救,q5值得更多关注,对称q8可能浪费显存
一项详细的基准测试,使用PPL和KLD指标在Qwen 3.6 27B上比较KV缓存量化方法(TurboQuant、TCQ、q4、q5、q8),发现TCQ改进了低位量化,不对称KV在相同大小下优于对称KV,且q8通常过于夸张。包含分析和数据,见链接文章。
受 TurboQuant 启发的 KV 缓存量化方案的统计推断与质量评估
本文分析了受 TurboQuant 启发的 KV 缓存量化方案,利用统计推断和新的 6D 误差框架来评估 KL 散度、几何误差等质量指标。
@anirudhbv_ce: 介绍 SpectralQuant.. 来拯救您的 KV 缓存 :)
SpectralQuant 是一种新的 KV 缓存量化技术,在 Mistral 7B 上实现了 5.95 倍压缩,仅带来 7.5% 的困惑度开销,显著优于 TurboQuant,且每个模型只需 15 秒校准。
KVarN:华为推出的原生 vLLM KV 缓存量化后端
华为 CSL 发布 KVarN,这是一个原生 vLLM 注意力后端,专为 KV 缓存量化设计。它无需校准即可实现 3-5 倍的 KV 缓存容量提升,以及高达约 1.3 倍于 FP16 的吞吐量。在 Qwen3-32B 等模型上,其吞吐量最高可达 TurboQuant 的约 2.4 倍,同时保持与 FP16 相当的精度。