Tangram:解锁非均匀KV缓存压缩,实现高效的多轮LLM服务

Hugging Face Daily Papers 论文

摘要

本文介绍了Tangram,一个服务框架,它静态解析多轮LLM服务中的非均匀KV缓存压缩,相比全KV基线实现了高达2.6倍的吞吐量提升,同时消除了运行时开销。

多轮LLM服务会累积对话历史,其键值(KV)缓存随每一轮和每个用户增长,迅速超过模型权重本身,使得内存——而非计算——成为吞吐量的约束因素。非均匀KV压缩在注意力头之间分配异构预算,比均匀方案能更好地保持准确性,但实践中仍不可行:现代服务栈假设各头的KV长度相同,因此异构性导致释放的内存在页面碎片中浪费,预填充时间中多达25%用于回收散落的页面,并且GPU负载不均使得解码延迟增加高达1.7倍,或者每个解码步骤中浪费15-20%用于重新规划。我们观察到这种异构性无需在运行时发现:逐头保留遵循一种两级结构规律——一个输入无关的头部排序,每个头部比例有狭窄的边界——可以从少至50个样本中离线校准。基于这一洞察,我们提出了Tangram,一个服务框架,静态解析了以前系统动态处理的问题:预算预留(Budget Reservation)在调度时固定每个头压缩后的空间占用,消除了页面回收;碎片分页(Ragged Paging)将相似预算的头聚集到独立的页表中,将碎片转化为可回收内存;提前负载均衡(Ahead-of-Time Load Balancing)预计算平衡的GPU分区,无需运行时规划。在vLLM上实现后,Tangram作为现有非均匀压缩方法的即插即用平台,匹配其准确性,同时将端到端吞吐量提升至全KV基线的2.6倍。我们的实现已在 https://github.com/aiha-lab/TANGRAM 公开。
查看原文
查看缓存全文

缓存时间: 2026/06/16 11:33

论文页面 - Tangram:解锁非均匀键值缓存压缩以实现高效的多轮大语言模型服务

来源:https://huggingface.co/papers/2606.06302

摘要

多轮大语言模型服务面临由于键值缓存不断增长带来的内存限制,但一种结构化的非均匀压缩方法通过静态预算分配和优化的内存管理实现了显著的吞吐量提升。

多轮大语言模型服务会累积对话历史,其键值(KV)缓存(https://huggingface.co/papers?q=Key-Value%20(KV)%20cache)随着每一轮和每一个用户而增长,很快超过模型权重本身,使得内存——而非计算——成为吞吐量的约束瓶颈。非均匀键值压缩(https://huggingface.co/papers?q=Non-uniform%20KV%20compression)在注意力头(https://huggingface.co/papers?q=attention%20heads)之间分配异构预算,其准确性远优于均匀方案,但仍然不实用:现代服务栈假定各头的键值长度相同,因此异构性会将释放的内存困为页面碎片(https://huggingface.co/papers?q=page%20fragmentation),花费高达25%的预填充时间(https://huggingface.co/papers?q=prefill%20time)来回收分散的页面,并且歪斜GPU工作负载(https://huggingface.co/papers?q=GPU%20workloads),导致解码延迟(https://huggingface.co/papers?q=decode%20latency)增加高达1.7倍,或每次解码步骤耗费15-20%的时间进行重新规划。我们观察到这种异构性无需在运行时发现:逐头保留率(https://huggingface.co/papers?q=head-wise%20retention)遵循一种两层级结构规律性(https://huggingface.co/papers?q=structural%20regularity)——输入无关的头排名以及每头比率狭窄有界——可以通过离线校准仅需少至50个样本。基于这一洞察,我们提出了Tangram,一个服务框架,它静态解决了先前系统动态处理的问题:预算预留(https://huggingface.co/papers?q=Budget%20Reservation)在调度时固定每个头压缩后的占用空间,消除了页面回收;不规则分页(https://huggingface.co/papers?q=Ragged%20Paging)将相似预算的头聚集成独立的页表,将碎片转化为可回收内存;以及提前负载均衡(https://huggingface.co/papers?q=Ahead-of-Time%20Load%20Balancing)预计算均衡的GPU分区,零运行时规划。在vLLM(https://huggingface.co/papers?q=vLLM)上实现,Tangram作为现有非均匀压缩方法的即插即用基座,在保持准确性的同时,相对于完整键值基线将端到端吞吐量提升了高达2.6倍。我们的实现已公开于 https://github.com/aiha-lab/TANGRAM。

查看 arXiv 页面(https://arxiv.org/abs/2606.06302)查看 PDF(https://arxiv.org/pdf/2606.06302)项目页面(https://aiha-lab.github.io/tangram-page/)GitHub6(https://github.com/aiha-lab/tangram)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.06302)

在你的智能体中获取此论文:

hf papers read 2606\.06302

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.06302 以从本页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.06302 以从本页面链接。

引用此论文的 Spaces0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.06302 以从本页面链接。

包含此论文的收藏集0

没有包含此论文的收藏集

将此论文添加到收藏集(https://huggingface.co/new-collection)以从本页面链接。

相似文章

KV Packet: 免重计算的上下文无关KV缓存用于大语言模型

Hugging Face Daily Papers

KV Packet 提出了一种免重计算的缓存复用框架,用于大语言模型。该框架使用可训练的软标记适配器来弥合上下文不连续性,消除了开销,同时在 Llama-3.1 和 Qwen2.5 上的性能与完全重计算基线相当。

PolyKV: 异构保留与分配的KV缓存压缩

arXiv cs.LG

PolyKV是一种逐层的KV缓存压缩框架,为每一层分配异构的驱逐策略和非均匀的预算,在LongBench上使用LLaMA-3.1-8B和Qwen3-8B相比统一基线有显著提升。

KV缓存压缩比TurboQuant与逐向量香农极限高出900000倍

Hacker News Top

一篇新论文提出了一种基于概率语言Trie树和预测差分编码的顺序KV缓存压缩方法。该方法通过利用语言模型Token的序列结构而非对向量进行独立处理,实现了超越TurboQuant约91.4万倍的理论压缩比。