KV Packet: 免重计算的上下文无关KV缓存用于大语言模型
摘要
KV Packet 提出了一种免重计算的缓存复用框架,用于大语言模型。该框架使用可训练的软标记适配器来弥合上下文不连续性,消除了开销,同时在 Llama-3.1 和 Qwen2.5 上的性能与完全重计算基线相当。
查看缓存全文
缓存时间: 2026/04/20 08:29
论文页面 - KV Packet:面向大语言模型的无重计算上下文无关KV缓存
来源:https://huggingface.co/papers/2604.13226
摘要
KV Packet 是一种缓存复用框架,通过将缓存文档视为不可变的数据包,并附上轻量级可训练的软令牌适配器,消除了大语言模型中的重计算开销。
大语言模型(LLM)高度依赖键值(KV)缓存来减少推理延迟。然而,标准的 KV 缓存具有上下文依赖性:在新上下文中复用缓存文档时,需要重新计算 KV 状态以应对注意力分布(https://huggingface.co/papers?q=attention%20distribution)的偏移。现有解决方案如 CacheBlend(https://huggingface.co/papers?q=CacheBlend)、EPIC(https://huggingface.co/papers?q=EPIC)和 SAM-KV(https://huggingface.co/papers?q=SAM-KV)通过选择性地重计算部分令牌来缓解该问题,但仍会带来不可忽略的计算开销(FLOPs,https://huggingface.co/papers?q=FLOPs)以及更高的首令牌时间(TTFT,https://huggingface.co/papers?q=Time-to-First-Token)延迟。本文提出 KV Packet,一种免重计算的缓存复用框架,将缓存文档视为不可变的“数据包”,并包裹在轻量级可训练的软令牌适配器(https://huggingface.co/papers?q=soft-token%20adapters)中;这些适配器通过自监督蒸馏(https://huggingface.co/papers?q=self-supervised%20distillation)进行训练,以桥接上下文不连续性(https://huggingface.co/papers?q=context%20discontinuities)。在 Llama-3.1(https://huggingface.co/papers?q=Llama-3.1)和 Qwen2.5(https://huggingface.co/papers?q=Qwen2.5)上的实验表明,所提出的 KV Packet 方法实现了近乎为零的 FLOPs(https://huggingface.co/papers?q=FLOPs)和比基于重计算的基线更低的 TTFT,同时保留了与完全重计算基线相当的 F1 分数。
查看 arXiv 页面(https://arxiv.org/abs/2604.13226)查看 PDF(https://arxiv.org/pdf/2604.13226)GitHub13(https://github.com/ChuangtaoChen-TUM/KVPacket)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.13226)
社区
论文提交者
3 天前(https://huggingface.co/papers/2604.13226#69e19469558e83c77cf611f2)
通过拖拽、粘贴或点击此处上传图像、音频和视频。
点击或粘贴此处上传图片
在您的代理中获取此论文:
hf papers read 2604.13226
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接此论文
请在一个模型的 README.md 中引用 arxiv.org/abs/2604.13226,以便从此页面链接。
引用此论文的数据集0
没有数据集链接此论文
请在一个数据集的 README.md 中引用 arxiv.org/abs/2604.13226,以便从此页面链接。
引用此论文的 Spaces0
没有 Space 链接此论文
请在一个 Space 的 README.md 中引用 arxiv.org/abs/2604.13226,以便从此页面链接。
包含此论文的收藏集3
相似文章
TTKV:面向长上下文LLM推理的时间分层KV缓存
TTKV借鉴人类记忆机制,提出时间分层KV缓存,在128K上下文LLM推理中降低76%延迟、吞吐量翻倍,跨层流量减少5.94倍。
OjaKV: 上下文感知的在线低秩KV缓存压缩
OjaKV 引入了一种上下文感知的在线低秩KV缓存压缩框架,该框架利用混合存储策略和Oja算法进行增量子空间自适应,以减少长上下文大语言模型推理中的GPU内存瓶颈,且无需模型微调。
KV缓存压缩比TurboQuant与逐向量香农极限高出900000倍
一篇新论文提出了一种基于概率语言Trie树和预测差分编码的顺序KV缓存压缩方法。该方法通过利用语言模型Token的序列结构而非对向量进行独立处理,实现了超越TurboQuant约91.4万倍的理论压缩比。
混合与循环大语言模型服务中的稀疏前缀缓存
本文针对混合和循环大语言模型提出了稀疏前缀缓存方法,该方法在有限的检查点位置存储循环状态,从而避免密集缓存,同时最小化重计算量。在真实数据上,该方法优于标准启发式方法,尤其是在请求共享大量但非完全相同的前缀时。
基于熵与低秩重构的高保真KV缓存摘要
提出一种SRC流水线,通过基于熵的选择和低秩重构对KV缓存进行摘要,而非直接裁剪token,在百万token的LLM上下文中降低显存占用,同时避免灾难性注意力错误。