KV Packet: 免重计算的上下文无关KV缓存用于大语言模型

Hugging Face Daily Papers 2026/04/14 00:00 论文

摘要

KV Packet 提出了一种免重计算的缓存复用框架，用于大语言模型。该框架使用可训练的软标记适配器来弥合上下文不连续性，消除了开销，同时在 Llama-3.1 和 Qwen2.5 上的性能与完全重计算基线相当。

大型语言模型（LLMs）严重依赖键值（KV）缓存来最小化推理延迟。然而，标准KV缓存是上下文相关的：在新上下文中重用缓存的文档需要重新计算KV状态，以适应注意力分布的变化。现有解决方案如CacheBlend、EPIC和SAM-KV通过选择性地重新计算部分令牌来缓解此问题，但它们仍然会带来不可忽略的计算开销（FLOPs）和增加的首次令牌时间（TTFT）延迟。在本文中，我们提出KV Packet，一种免重计算的缓存复用框架，它将缓存的文档视为不可变的“数据包”，包裹在轻量级可训练的软标记适配器中，通过自监督蒸馏训练以弥合上下文不连续性。在Llama-3.1和Qwen2.5上的实验表明，所提出的KV Packet方法实现了接近零的FLOPs和比基于重计算的基线更低的TTFT，同时保持了与完全重计算基线相当的F1分数。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/20 08:29

论文页面 - KV Packet：面向大语言模型的无重计算上下文无关KV缓存

来源：https://huggingface.co/papers/2604.13226

摘要

KV Packet 是一种缓存复用框架，通过将缓存文档视为不可变的数据包，并附上轻量级可训练的软令牌适配器，消除了大语言模型中的重计算开销。

大语言模型（LLM）高度依赖键值（KV）缓存来减少推理延迟。然而，标准的 KV 缓存具有上下文依赖性：在新上下文中复用缓存文档时，需要重新计算 KV 状态以应对注意力分布（https://huggingface.co/papers?q=attention%20distribution）的偏移。现有解决方案如 CacheBlend（https://huggingface.co/papers?q=CacheBlend）、EPIC（https://huggingface.co/papers?q=EPIC）和 SAM-KV（https://huggingface.co/papers?q=SAM-KV）通过选择性地重计算部分令牌来缓解该问题，但仍会带来不可忽略的计算开销（FLOPs，https://huggingface.co/papers?q=FLOPs）以及更高的首令牌时间（TTFT，https://huggingface.co/papers?q=Time-to-First-Token）延迟。本文提出 KV Packet，一种免重计算的缓存复用框架，将缓存文档视为不可变的“数据包”，并包裹在轻量级可训练的软令牌适配器（https://huggingface.co/papers?q=soft-token%20adapters）中；这些适配器通过自监督蒸馏（https://huggingface.co/papers?q=self-supervised%20distillation）进行训练，以桥接上下文不连续性（https://huggingface.co/papers?q=context%20discontinuities）。在 Llama-3.1（https://huggingface.co/papers?q=Llama-3.1）和 Qwen2.5（https://huggingface.co/papers?q=Qwen2.5）上的实验表明，所提出的 KV Packet 方法实现了近乎为零的 FLOPs（https://huggingface.co/papers?q=FLOPs）和比基于重计算的基线更低的 TTFT，同时保留了与完全重计算基线相当的 F1 分数。

查看 arXiv 页面（https://arxiv.org/abs/2604.13226）查看 PDF（https://arxiv.org/pdf/2604.13226）GitHub13（https://github.com/ChuangtaoChen-TUM/KVPacket）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2604.13226）

社区

论文提交者

3 天前（https://huggingface.co/papers/2604.13226#69e19469558e83c77cf611f2）

通过拖拽、粘贴或点击此处上传图像、音频和视频。

点击或粘贴此处上传图片

在您的代理中获取此论文：

hf papers read 2604.13226

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

请在一个模型的 README.md 中引用 arxiv.org/abs/2604.13226，以便从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

请在一个数据集的 README.md 中引用 arxiv.org/abs/2604.13226，以便从此页面链接。

引用此论文的 Spaces0

没有 Space 链接此论文

请在一个 Space 的 README.md 中引用 arxiv.org/abs/2604.13226，以便从此页面链接。

KV Packet: 免重计算的上下文无关KV缓存用于大语言模型

论文页面 - KV Packet：面向大语言模型的无重计算上下文无关KV缓存

摘要

社区

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏集3

相似文章

TTKV：面向长上下文LLM推理的时间分层KV缓存

OjaKV: 上下文感知的在线低秩KV缓存压缩

KV缓存压缩比TurboQuant与逐向量香农极限高出900000倍

混合与循环大语言模型服务中的稀疏前缀缓存

基于熵与低秩重构的高保真KV缓存摘要

提交意见反馈