@anirudhbv_ce: 介绍 SpectralQuant.. 来拯救您的 KV 缓存 :)

X AI KOLs Timeline 工具

摘要

SpectralQuant 是一种新的 KV 缓存量化技术,在 Mistral 7B 上实现了 5.95 倍压缩,仅带来 7.5% 的困惑度开销,显著优于 TurboQuant,且每个模型只需 15 秒校准。

介绍 SpectralQuant.. 来拯救您的 KV 缓存 :)
查看原文
查看缓存全文

缓存时间: 2026/05/20 04:26

介绍 SpectralQuant.. 来拯救你的 KV 缓存 :)

Ashwin Gopinath (@ashwingop): @sentra_app 刚刚干掉了 @GoogleResearch 的 TurboQuant。

SpectralQuant — 在 Mistral 7B 上实现 5.95 倍 KV 缓存压缩,困惑度仅增加 7.5%。

同等压缩率下,TurboQuant 的困惑度增加 22%。

性能下降减少了 3 倍。15 秒校准。每个模型只需一次操作,即可无缝适配任何 HuggingFace 模型。

相似文章

KVarN: Native vLLM backend for KV-cache quantization by Huawei

Hacker News Top

Huawei CSL releases KVarN, a native vLLM attention backend for KV-cache quantization that delivers 3-5x more KV-cache capacity and up to ~1.3x the throughput of FP16, with no calibration required. It claims up to ~2.4x the throughput of TurboQuant while maintaining FP16-level accuracy on models like Qwen3-32B.

KV缓存压缩比TurboQuant与逐向量香农极限高出900000倍

Hacker News Top

一篇新论文提出了一种基于概率语言Trie树和预测差分编码的顺序KV缓存压缩方法。该方法通过利用语言模型Token的序列结构而非对向量进行独立处理,实现了超越TurboQuant约91.4万倍的理论压缩比。