我们现在就能在 llama-server 里用 Google 的 TurboQuant(TQ)压缩 KV Cache 吗?还是还得等 PR?

Reddit r/LocalLLaMA 工具

摘要

社区讨论:Google TurboQuant 压缩是否已可用于 llama-server 的 KV cache,还是仍在等待实现。

大家好! 自打 Google 公布 [TurboQuant](https://www.google.com/url?sa=E&q=https%3A%2F%2Fresearch.google%2Fblog%2Fturboquant-redefining-ai-efficiency-with-extreme-compression%2F) 以来,我就一直关注它“极端压缩却几乎不掉质量”的能力。这个名词在版里被反复提起,可看了这么多讨论,我还是有点懵:它到底能不能现在就给我们用?如果能,该怎么用? 最近看到一篇文章/帖子,有人直接把 TQ 量化用在了**模型权重**上。结果 Qwen3.5-27B 在接近 Q4_0 的质量下体积缩小了约 10%,终于能舒服地塞进 16 GB 显存(楼主用的是 RTX 5060 Ti)。这对消费级显卡来说简直是福音。 然而,TurboQuant 最初被大肆宣传的重点是“上下文与内存效率”,于是我的核心疑问就落在 **KV Cache** 上——毕竟真正吃掉显存的往往是上下文长度。 所以想问: 1. 目前能不能在 llama-server(llama.cpp)里把 TQ 量化应用到 KV cache? 2. 如果可以,要怎么开?有没有类似 `--cache-type q4_0` / `--cache-type q8_0` 的 CLI 参数? 3. 还是说现在只能用于模型权重,KV cache 还得等 llama.cpp 官方发 PR/新版本? 如果有人实测过或者了解开发进度,求分享!谢谢!
查看原文

相似文章

KV缓存压缩比TurboQuant与逐向量香农极限高出900000倍

Hacker News Top

一篇新论文提出了一种基于概率语言Trie树和预测差分编码的顺序KV缓存压缩方法。该方法通过利用语言模型Token的序列结构而非对向量进行独立处理,实现了超越TurboQuant约91.4万倍的理论压缩比。

KV Packet: 免重计算的上下文无关KV缓存用于大语言模型

Hugging Face Daily Papers

KV Packet 提出了一种免重计算的缓存复用框架,用于大语言模型。该框架使用可训练的软标记适配器来弥合上下文不连续性,消除了开销,同时在 Llama-3.1 和 Qwen2.5 上的性能与完全重计算基线相当。

OjaKV: 上下文感知的在线低秩KV缓存压缩

arXiv cs.CL

OjaKV 引入了一种上下文感知的在线低秩KV缓存压缩框架,该框架利用混合存储策略和Oja算法进行增量子空间自适应,以减少长上下文大语言模型推理中的GPU内存瓶颈,且无需模型微调。