KV Packet: 免重计算的上下文无关KV缓存用于大语言模型

Hugging Face Daily Papers 论文

摘要

KV Packet 提出了一种免重计算的缓存复用框架,用于大语言模型。该框架使用可训练的软标记适配器来弥合上下文不连续性,消除了开销,同时在 Llama-3.1 和 Qwen2.5 上的性能与完全重计算基线相当。

大型语言模型(LLMs)严重依赖键值(KV)缓存来最小化推理延迟。然而,标准KV缓存是上下文相关的:在新上下文中重用缓存的文档需要重新计算KV状态,以适应注意力分布的变化。现有解决方案如CacheBlend、EPIC和SAM-KV通过选择性地重新计算部分令牌来缓解此问题,但它们仍然会带来不可忽略的计算开销(FLOPs)和增加的首次令牌时间(TTFT)延迟。在本文中,我们提出KV Packet,一种免重计算的缓存复用框架,它将缓存的文档视为不可变的“数据包”,包裹在轻量级可训练的软标记适配器中,通过自监督蒸馏训练以弥合上下文不连续性。在Llama-3.1和Qwen2.5上的实验表明,所提出的KV Packet方法实现了接近零的FLOPs和比基于重计算的基线更低的TTFT,同时保持了与完全重计算基线相当的F1分数。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 08:29

论文页面 - KV Packet:面向大语言模型的无重计算上下文无关KV缓存

来源:https://huggingface.co/papers/2604.13226

摘要

KV Packet 是一种缓存复用框架,通过将缓存文档视为不可变的数据包,并附上轻量级可训练的软令牌适配器,消除了大语言模型中的重计算开销。

大语言模型(LLM)高度依赖键值(KV)缓存来减少推理延迟。然而,标准的 KV 缓存具有上下文依赖性:在新上下文中复用缓存文档时,需要重新计算 KV 状态以应对注意力分布(https://huggingface.co/papers?q=attention%20distribution)的偏移。现有解决方案如 CacheBlend(https://huggingface.co/papers?q=CacheBlend)、EPIC(https://huggingface.co/papers?q=EPIC)和 SAM-KV(https://huggingface.co/papers?q=SAM-KV)通过选择性地重计算部分令牌来缓解该问题,但仍会带来不可忽略的计算开销(FLOPs,https://huggingface.co/papers?q=FLOPs)以及更高的首令牌时间(TTFT,https://huggingface.co/papers?q=Time-to-First-Token)延迟。本文提出 KV Packet,一种免重计算的缓存复用框架,将缓存文档视为不可变的“数据包”,并包裹在轻量级可训练的软令牌适配器(https://huggingface.co/papers?q=soft-token%20adapters)中;这些适配器通过自监督蒸馏(https://huggingface.co/papers?q=self-supervised%20distillation)进行训练,以桥接上下文不连续性(https://huggingface.co/papers?q=context%20discontinuities)。在 Llama-3.1(https://huggingface.co/papers?q=Llama-3.1)和 Qwen2.5(https://huggingface.co/papers?q=Qwen2.5)上的实验表明,所提出的 KV Packet 方法实现了近乎为零的 FLOPs(https://huggingface.co/papers?q=FLOPs)和比基于重计算的基线更低的 TTFT,同时保留了与完全重计算基线相当的 F1 分数。

查看 arXiv 页面(https://arxiv.org/abs/2604.13226)查看 PDF(https://arxiv.org/pdf/2604.13226)GitHub13(https://github.com/ChuangtaoChen-TUM/KVPacket)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.13226)

社区

论文提交者

3 天前(https://huggingface.co/papers/2604.13226#69e19469558e83c77cf611f2)

通过拖拽、粘贴或点击此处上传图像、音频和视频。

点击或粘贴此处上传图片

在您的代理中获取此论文:

hf papers read 2604.13226

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

请在一个模型的 README.md 中引用 arxiv.org/abs/2604.13226,以便从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

请在一个数据集的 README.md 中引用 arxiv.org/abs/2604.13226,以便从此页面链接。

引用此论文的 Spaces0

没有 Space 链接此论文

请在一个 Space 的 README.md 中引用 arxiv.org/abs/2604.13226,以便从此页面链接。

包含此论文的收藏集3

相似文章

OjaKV: 上下文感知的在线低秩KV缓存压缩

arXiv cs.CL

OjaKV 引入了一种上下文感知的在线低秩KV缓存压缩框架,该框架利用混合存储策略和Oja算法进行增量子空间自适应,以减少长上下文大语言模型推理中的GPU内存瓶颈,且无需模型微调。

KV缓存压缩比TurboQuant与逐向量香农极限高出900000倍

Hacker News Top

一篇新论文提出了一种基于概率语言Trie树和预测差分编码的顺序KV缓存压缩方法。该方法通过利用语言模型Token的序列结构而非对向量进行独立处理,实现了超越TurboQuant约91.4万倍的理论压缩比。

混合与循环大语言模型服务中的稀疏前缀缓存

arXiv cs.LG

本文针对混合和循环大语言模型提出了稀疏前缀缓存方法,该方法在有限的检查点位置存储循环状态,从而避免密集缓存,同时最小化重计算量。在真实数据上,该方法优于标准启发式方法,尤其是在请求共享大量但非完全相同的前缀时。

基于熵与低秩重构的高保真KV缓存摘要

Hacker News Top

提出一种SRC流水线,通过基于熵的选择和低秩重构对KV缓存进行摘要,而非直接裁剪token,在百万token的LLM上下文中降低显存占用,同时避免灾难性注意力错误。