我们现在就能在 llama-server 里用 Google 的 TurboQuant(TQ)压缩 KV Cache 吗?还是还得等 PR?
摘要
社区讨论:Google TurboQuant 压缩是否已可用于 llama-server 的 KV cache,还是仍在等待实现。
大家好!
自打 Google 公布 [TurboQuant](https://www.google.com/url?sa=E&q=https%3A%2F%2Fresearch.google%2Fblog%2Fturboquant-redefining-ai-efficiency-with-extreme-compression%2F) 以来,我就一直关注它“极端压缩却几乎不掉质量”的能力。这个名词在版里被反复提起,可看了这么多讨论,我还是有点懵:它到底能不能现在就给我们用?如果能,该怎么用?
最近看到一篇文章/帖子,有人直接把 TQ 量化用在了**模型权重**上。结果 Qwen3.5-27B 在接近 Q4_0 的质量下体积缩小了约 10%,终于能舒服地塞进 16 GB 显存(楼主用的是 RTX 5060 Ti)。这对消费级显卡来说简直是福音。
然而,TurboQuant 最初被大肆宣传的重点是“上下文与内存效率”,于是我的核心疑问就落在 **KV Cache** 上——毕竟真正吃掉显存的往往是上下文长度。
所以想问:
1. 目前能不能在 llama-server(llama.cpp)里把 TQ 量化应用到 KV cache?
2. 如果可以,要怎么开?有没有类似 `--cache-type q4_0` / `--cache-type q8_0` 的 CLI 参数?
3. 还是说现在只能用于模型权重,KV cache 还得等 llama.cpp 官方发 PR/新版本?
如果有人实测过或者了解开发进度,求分享!谢谢!
相似文章
KV缓存压缩比TurboQuant与逐向量香农极限高出900000倍
一篇新论文提出了一种基于概率语言Trie树和预测差分编码的顺序KV缓存压缩方法。该方法通过利用语言模型Token的序列结构而非对向量进行独立处理,实现了超越TurboQuant约91.4万倍的理论压缩比。
KV Packet: 免重计算的上下文无关KV缓存用于大语言模型
KV Packet 提出了一种免重计算的缓存复用框架,用于大语言模型。该框架使用可训练的软标记适配器来弥合上下文不连续性,消除了开销,同时在 Llama-3.1 和 Qwen2.5 上的性能与完全重计算基线相当。
TTKV:面向长上下文LLM推理的时间分层KV缓存
TTKV借鉴人类记忆机制,提出时间分层KV缓存,在128K上下文LLM推理中降低76%延迟、吞吐量翻倍,跨层流量减少5.94倍。
OjaKV: 上下文感知的在线低秩KV缓存压缩
OjaKV 引入了一种上下文感知的在线低秩KV缓存压缩框架,该框架利用混合存储策略和Oja算法进行增量子空间自适应,以减少长上下文大语言模型推理中的GPU内存瓶颈,且无需模型微调。
BeeLlama.cpp:支持推理和视觉的先进 DFlash 与 TurboQuant。在 RTX 3090 上以 200k 上下文运行 Qwen 3.6 27B Q5,速度比基线快 2-3 倍(峰值 135 tps!)
BeeLlama.cpp 是一个专注于性能的 llama.cpp 分支,引入了 DFlash 投机解码和 TurboQuant KV 缓存压缩技术,使得在消费级硬件上也能高速本地运行像 Qwen 3.6 27B 这样的大型模型。