@anirudhbv_ce: 介绍 SpectralQuant.. 来拯救您的 KV 缓存 :)
摘要
SpectralQuant 是一种新的 KV 缓存量化技术,在 Mistral 7B 上实现了 5.95 倍压缩,仅带来 7.5% 的困惑度开销,显著优于 TurboQuant,且每个模型只需 15 秒校准。
查看缓存全文
缓存时间: 2026/05/20 04:26
介绍 SpectralQuant.. 来拯救你的 KV 缓存 :)
Ashwin Gopinath (@ashwingop): @sentra_app 刚刚干掉了 @GoogleResearch 的 TurboQuant。
SpectralQuant — 在 Mistral 7B 上实现 5.95 倍 KV 缓存压缩,困惑度仅增加 7.5%。
同等压缩率下,TurboQuant 的困惑度增加 22%。
性能下降减少了 3 倍。15 秒校准。每个模型只需一次操作,即可无缝适配任何 HuggingFace 模型。
相似文章
这是我的KV缓存量化基准测试:TurboQuant被高估但被TCQ拯救,q5值得更多关注,对称q8可能浪费显存
一项详细的基准测试,使用PPL和KLD指标在Qwen 3.6 27B上比较KV缓存量化方法(TurboQuant、TCQ、q4、q5、q8),发现TCQ改进了低位量化,不对称KV在相同大小下优于对称KV,且q8通常过于夸张。包含分析和数据,见链接文章。
受 TurboQuant 启发的 KV 缓存量化方案的统计推断与质量评估
本文分析了受 TurboQuant 启发的 KV 缓存量化方案,利用统计推断和新的 6D 误差框架来评估 KL 散度、几何误差等质量指标。
KVarN: Native vLLM backend for KV-cache quantization by Huawei
Huawei CSL releases KVarN, a native vLLM attention backend for KV-cache quantization that delivers 3-5x more KV-cache capacity and up to ~1.3x the throughput of FP16, with no calibration required. It claims up to ~2.4x the throughput of TurboQuant while maintaining FP16-level accuracy on models like Qwen3-32B.
RateQuant:基于率失真理论的优化混合精度KV Cache量化
本文介绍了 RateQuant,一种用于优化混合精度 KV Cache 量化的方法。该方法利用率失真理论解决失真模型不匹配问题,与 KIVI 和 QuaRot 等现有方法相比,在极低的校准开销下显著降低了困惑度。
KV缓存压缩比TurboQuant与逐向量香农极限高出900000倍
一篇新论文提出了一种基于概率语言Trie树和预测差分编码的顺序KV缓存压缩方法。该方法通过利用语言模型Token的序列结构而非对向量进行独立处理,实现了超越TurboQuant约91.4万倍的理论压缩比。