Tangram:解锁非均匀KV缓存压缩,实现高效的多轮LLM服务
摘要
本文介绍了Tangram,一个服务框架,它静态解析多轮LLM服务中的非均匀KV缓存压缩,相比全KV基线实现了高达2.6倍的吞吐量提升,同时消除了运行时开销。
查看缓存全文
缓存时间: 2026/06/16 11:33
论文页面 - Tangram:解锁非均匀键值缓存压缩以实现高效的多轮大语言模型服务
来源:https://huggingface.co/papers/2606.06302
摘要
多轮大语言模型服务面临由于键值缓存不断增长带来的内存限制,但一种结构化的非均匀压缩方法通过静态预算分配和优化的内存管理实现了显著的吞吐量提升。
多轮大语言模型服务会累积对话历史,其键值(KV)缓存(https://huggingface.co/papers?q=Key-Value%20(KV)%20cache)随着每一轮和每一个用户而增长,很快超过模型权重本身,使得内存——而非计算——成为吞吐量的约束瓶颈。非均匀键值压缩(https://huggingface.co/papers?q=Non-uniform%20KV%20compression)在注意力头(https://huggingface.co/papers?q=attention%20heads)之间分配异构预算,其准确性远优于均匀方案,但仍然不实用:现代服务栈假定各头的键值长度相同,因此异构性会将释放的内存困为页面碎片(https://huggingface.co/papers?q=page%20fragmentation),花费高达25%的预填充时间(https://huggingface.co/papers?q=prefill%20time)来回收分散的页面,并且歪斜GPU工作负载(https://huggingface.co/papers?q=GPU%20workloads),导致解码延迟(https://huggingface.co/papers?q=decode%20latency)增加高达1.7倍,或每次解码步骤耗费15-20%的时间进行重新规划。我们观察到这种异构性无需在运行时发现:逐头保留率(https://huggingface.co/papers?q=head-wise%20retention)遵循一种两层级结构规律性(https://huggingface.co/papers?q=structural%20regularity)——输入无关的头排名以及每头比率狭窄有界——可以通过离线校准仅需少至50个样本。基于这一洞察,我们提出了Tangram,一个服务框架,它静态解决了先前系统动态处理的问题:预算预留(https://huggingface.co/papers?q=Budget%20Reservation)在调度时固定每个头压缩后的占用空间,消除了页面回收;不规则分页(https://huggingface.co/papers?q=Ragged%20Paging)将相似预算的头聚集成独立的页表,将碎片转化为可回收内存;以及提前负载均衡(https://huggingface.co/papers?q=Ahead-of-Time%20Load%20Balancing)预计算均衡的GPU分区,零运行时规划。在vLLM(https://huggingface.co/papers?q=vLLM)上实现,Tangram作为现有非均匀压缩方法的即插即用基座,在保持准确性的同时,相对于完整键值基线将端到端吞吐量提升了高达2.6倍。我们的实现已公开于 https://github.com/aiha-lab/TANGRAM。
查看 arXiv 页面(https://arxiv.org/abs/2606.06302)查看 PDF(https://arxiv.org/pdf/2606.06302)项目页面(https://aiha-lab.github.io/tangram-page/)GitHub6(https://github.com/aiha-lab/tangram)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.06302)
在你的智能体中获取此论文:
hf papers read 2606\.06302
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2606.06302 以从本页面链接。
引用此论文的数据集0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.06302 以从本页面链接。
引用此论文的 Spaces0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2606.06302 以从本页面链接。
包含此论文的收藏集0
没有包含此论文的收藏集
将此论文添加到收藏集(https://huggingface.co/new-collection)以从本页面链接。
相似文章
TTKV:面向长上下文LLM推理的时间分层KV缓存
TTKV借鉴人类记忆机制,提出时间分层KV缓存,在128K上下文LLM推理中降低76%延迟、吞吐量翻倍,跨层流量减少5.94倍。
KV Packet: 免重计算的上下文无关KV缓存用于大语言模型
KV Packet 提出了一种免重计算的缓存复用框架,用于大语言模型。该框架使用可训练的软标记适配器来弥合上下文不连续性,消除了开销,同时在 Llama-3.1 和 Qwen2.5 上的性能与完全重计算基线相当。
PolyKV: 异构保留与分配的KV缓存压缩
PolyKV是一种逐层的KV缓存压缩框架,为每一层分配异构的驱逐策略和非均匀的预算,在LongBench上使用LLaMA-3.1-8B和Qwen3-8B相比统一基线有显著提升。
KV缓存压缩比TurboQuant与逐向量香农极限高出900000倍
一篇新论文提出了一种基于概率语言Trie树和预测差分编码的顺序KV缓存压缩方法。该方法通过利用语言模型Token的序列结构而非对向量进行独立处理,实现了超越TurboQuant约91.4万倍的理论压缩比。
针对长上下文大模型推理重新定义 KV 缓存淘汰问题
本文介绍了 LaProx,这是一种用于长上下文大模型推理的新型 KV 缓存淘汰策略。它将问题重构为输出感知的矩阵乘法近似问题,仅使用 5% 的缓存用量即可实现高性能。