让每个 Token 都物尽其用:通过 KV 缓存淘汰提升长上下文性能
摘要
本文提出了一种基于学习的全局保留率 KV 缓存淘汰方法,通过选择性保留有用 Token 并减少注意力稀释来改善长上下文推理能力,同时显著降低内存占用。
查看缓存全文
缓存时间: 2026/05/12 02:49
论文页面 - Make Each Token Count: Towards Improving Long-Context Performance with KV Cache Eviction
来源:https://huggingface.co/papers/2605.09649
摘要
基于全局保留率(global retention)的学习型键值(KV)缓存淘汰策略,通过选择性保留有用 token 同时降低内存使用,从而提升长上下文推理能力。
键值(KV)缓存是长上下文推理(https://huggingface.co/papers?q=long-context%20inference)的主要瓶颈,其内存和计算开销随序列长度增长。现有的 KV 淘汰(https://huggingface.co/papers?q=KV%20eviction)方法虽然降低了成本,但通常会导致性能低于全缓存推理。我们的核心洞察是:全缓存注意力机制并非总是最优的;在长上下文中,无关 token 会稀释对有用证据的注意力,因此选择性、可学习的淘汰策略能够改进生成效果,而不仅仅是近似全缓存。我们提出了一种基于全局保留率(https://huggingface.co/papers?q=global%20retention)的 KV 淘汰(https://huggingface.co/papers?q=KV%20eviction)方法,在统一的内存预算(https://huggingface.co/papers?q=memory%20budget)下学习每个 token 的未来效用。轻量级保留门控(https://huggingface.co/papers?q=retention%20gates)为缓存的 KV 条目分配效用分数,并通过共享的最终评分投影层校准所有层和头部的这些分数。这实现了一种单一的全局淘汰策略,使得来自不同层、头部和模态的 token 直接竞争缓存容量(https://huggingface.co/papers?q=cache%20capacity)。我们进一步提供了理论分析,表明优先保留有用 token 能减少注意力稀释(https://huggingface.co/papers?q=attention%20dilution),并论证了几何保留率(geometric retention)作为未来效用的查询无关代理(https://huggingface.co/papers?q=query-agnostic%20proxy)的合理性。在多样化的长上下文语言、视觉语言推理以及多轮对话基准测试中,我们的方法显著降低了 KV 内存占用,同时达到或超越了全缓存推理的性能。这些结果表明,经过学习且全局校准的 KV 淘汰(https://huggingface.co/papers?q=KV%20eviction)不仅是一种压缩技术,也是一种提升长上下文推理能力的机制。
查看 arXiv 页面 (https://arxiv.org/abs/2605.09649) 查看 PDF (https://arxiv.org/pdf/2605.09649) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.09649)
在您的 Agent 中获取此论文:
hf papers read 2605\.09649
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
无模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2605.09649 即可从本页链接该模型。
引用此论文的数据集 0
无数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.09649 即可从本页链接该数据集。
引用此论文的 Space 0
无 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2605.09649 即可从本页链接该 Space。
包含此论文的合集 1
相似文章
基于顿悟感知的KV缓存淘汰方法(无需注意力矩阵)
本文介绍了EpiKV,一种基于内部表征变化(顿悟分数)而非注意力权重来评估token重要性的KV缓存淘汰方法,无需具体化注意力矩阵。该方法在推理基准测试中取得了具有竞争力的性能,同时支持长达16倍的上下文长度。
TTKV:面向长上下文LLM推理的时间分层KV缓存
TTKV借鉴人类记忆机制,提出时间分层KV缓存,在128K上下文LLM推理中降低76%延迟、吞吐量翻倍,跨层流量减少5.94倍。
开源 InfiniteKV:一种 KV 缓存,将旧 token 压缩为 104 字节的可搜索记录存储在内存或磁盘中,而非删除。Mistral-7B 从 token 76,747 处作答,超出其训练窗口 2.3 倍。附 Colab 演示
InfiniteKV 是一种开源 KV 缓存技术,将旧 token 压缩为 104 字节的可搜索记录,存储在内存或磁盘中,使模型能够处理超出训练窗口的百万 token 上下文而无需丢弃数据。已验证可与 Mistral-7B 和 SmolLM2 配合使用。
KV Packet: 免重计算的上下文无关KV缓存用于大语言模型
KV Packet 提出了一种免重计算的缓存复用框架,用于大语言模型。该框架使用可训练的软标记适配器来弥合上下文不连续性,消除了开销,同时在 Llama-3.1 和 Qwen2.5 上的性能与完全重计算基线相当。
面向长推理的信息感知KV缓存压缩
本文提出InfoKV,一种熵感知的KV缓存压缩框架,结合了token级别的预测不确定性和注意力分数,以提高长上下文推理效率。实验表明,它在Llama-3.1、Llama-3.2和DeepSeek-R1上优于现有的基于注意力的方法。