KV Packet: 免重计算的上下文无关KV缓存用于大语言模型
摘要
KV Packet 提出了一种免重计算的缓存复用框架,用于大语言模型。该框架使用可训练的软标记适配器来弥合上下文不连续性,消除了开销,同时在 Llama-3.1 和 Qwen2.5 上的性能与完全重计算基线相当。
查看缓存全文
缓存时间: 2026/04/20 08:29
论文页面 - KV Packet:面向大语言模型的无重计算上下文无关KV缓存
来源:https://huggingface.co/papers/2604.13226
摘要
KV Packet 是一种缓存复用框架,通过将缓存文档视为不可变的数据包,并附上轻量级可训练的软令牌适配器,消除了大语言模型中的重计算开销。
大语言模型(LLM)高度依赖键值(KV)缓存来减少推理延迟。然而,标准的 KV 缓存具有上下文依赖性:在新上下文中复用缓存文档时,需要重新计算 KV 状态以应对注意力分布(https://huggingface.co/papers?q=attention%20distribution)的偏移。现有解决方案如 CacheBlend(https://huggingface.co/papers?q=CacheBlend)、EPIC(https://huggingface.co/papers?q=EPIC)和 SAM-KV(https://huggingface.co/papers?q=SAM-KV)通过选择性地重计算部分令牌来缓解该问题,但仍会带来不可忽略的计算开销(FLOPs,https://huggingface.co/papers?q=FLOPs)以及更高的首令牌时间(TTFT,https://huggingface.co/papers?q=Time-to-First-Token)延迟。本文提出 KV Packet,一种免重计算的缓存复用框架,将缓存文档视为不可变的“数据包”,并包裹在轻量级可训练的软令牌适配器(https://huggingface.co/papers?q=soft-token%20adapters)中;这些适配器通过自监督蒸馏(https://huggingface.co/papers?q=self-supervised%20distillation)进行训练,以桥接上下文不连续性(https://huggingface.co/papers?q=context%20discontinuities)。在 Llama-3.1(https://huggingface.co/papers?q=Llama-3.1)和 Qwen2.5(https://huggingface.co/papers?q=Qwen2.5)上的实验表明,所提出的 KV Packet 方法实现了近乎为零的 FLOPs(https://huggingface.co/papers?q=FLOPs)和比基于重计算的基线更低的 TTFT,同时保留了与完全重计算基线相当的 F1 分数。
查看 arXiv 页面(https://arxiv.org/abs/2604.13226)查看 PDF(https://arxiv.org/pdf/2604.13226)GitHub13(https://github.com/ChuangtaoChen-TUM/KVPacket)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.13226)
社区
论文提交者
3 天前(https://huggingface.co/papers/2604.13226#69e19469558e83c77cf611f2)
通过拖拽、粘贴或点击此处上传图像、音频和视频。
点击或粘贴此处上传图片
在您的代理中获取此论文:
hf papers read 2604.13226
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接此论文
请在一个模型的 README.md 中引用 arxiv.org/abs/2604.13226,以便从此页面链接。
引用此论文的数据集0
没有数据集链接此论文
请在一个数据集的 README.md 中引用 arxiv.org/abs/2604.13226,以便从此页面链接。
引用此论文的 Spaces0
没有 Space 链接此论文
请在一个 Space 的 README.md 中引用 arxiv.org/abs/2604.13226,以便从此页面链接。
包含此论文的收藏集3
相似文章
CompressKV:语义检索引导的KV缓存压缩方法,用于资源高效的长上下文大语言模型推理
CompressKV针对基于GQA的大语言模型,提出了一种语义检索引导的KV缓存压缩方法,通过识别语义检索头来保留关键令牌。在LongBench任务中,仅使用3%的KV缓存即可实现超过97%的全缓存性能。
TTKV:面向长上下文LLM推理的时间分层KV缓存
TTKV借鉴人类记忆机制,提出时间分层KV缓存,在128K上下文LLM推理中降低76%延迟、吞吐量翻倍,跨层流量减少5.94倍。
SeKV:面向长上下文LLM推理的分辨率自适应KV缓存与分层语义记忆
SeKV是一种分辨率自适应的KV缓存方法,它将上下文组织成基于熵引导的语义片段,并存储在GPU-CPU层级结构中,从而在解码过程中实现选择性Token级重建,同时在128K上下文下相比全缓存减少53.3%的GPU内存占用。
针对长上下文大模型推理重新定义 KV 缓存淘汰问题
本文介绍了 LaProx,这是一种用于长上下文大模型推理的新型 KV 缓存淘汰策略。它将问题重构为输出感知的矩阵乘法近似问题,仅使用 5% 的缓存用量即可实现高性能。
PolyKV: 异构保留与分配的KV缓存压缩
PolyKV是一种逐层的KV缓存压缩框架,为每一层分配异构的驱逐策略和非均匀的预算,在LongBench上使用LLaMA-3.1-8B和Qwen3-8B相比统一基线有显著提升。