我们现在就能在 llama-server 里用 Google 的 TurboQuant（TQ）压缩 KV Cache 吗？还是还得等 PR？

Reddit r/LocalLLaMA 2026/04/22 10:38 工具

quantization kv-cache llama-cpp turboquant vram compression

摘要

社区讨论：Google TurboQuant 压缩是否已可用于 llama-server 的 KV cache，还是仍在等待实现。

大家好！自打 Google 公布 [TurboQuant](https://www.google.com/url?sa=E&q=https%3A%2F%2Fresearch.google%2Fblog%2Fturboquant-redefining-ai-efficiency-with-extreme-compression%2F) 以来，我就一直关注它“极端压缩却几乎不掉质量”的能力。这个名词在版里被反复提起，可看了这么多讨论，我还是有点懵：它到底能不能现在就给我们用？如果能，该怎么用？最近看到一篇文章/帖子，有人直接把 TQ 量化用在了**模型权重**上。结果 Qwen3.5-27B 在接近 Q4_0 的质量下体积缩小了约 10%，终于能舒服地塞进 16 GB 显存（楼主用的是 RTX 5060 Ti）。这对消费级显卡来说简直是福音。然而，TurboQuant 最初被大肆宣传的重点是“上下文与内存效率”，于是我的核心疑问就落在 **KV Cache** 上——毕竟真正吃掉显存的往往是上下文长度。所以想问： 1. 目前能不能在 llama-server（llama.cpp）里把 TQ 量化应用到 KV cache？ 2. 如果可以，要怎么开？有没有类似 `--cache-type q4_0` / `--cache-type q8_0` 的 CLI 参数？ 3. 还是说现在只能用于模型权重，KV cache 还得等 llama.cpp 官方发 PR/新版本？如果有人实测过或者了解开发进度，求分享！谢谢！

查看原文

我们现在就能在 llama-server 里用 Google 的 TurboQuant（TQ）压缩 KV Cache 吗？还是还得等 PR？

相似文章

KV缓存压缩比TurboQuant与逐向量香农极限高出900000倍

KV Packet: 免重计算的上下文无关KV缓存用于大语言模型

TTKV：面向长上下文LLM推理的时间分层KV缓存

OjaKV: 上下文感知的在线低秩KV缓存压缩

BeeLlama.cpp：支持推理和视觉的先进 DFlash 与 TurboQuant。在 RTX 3090 上以 200k 上下文运行 Qwen 3.6 27B Q5，速度比基线快 2-3 倍（峰值 135 tps！）

提交意见反馈