让每个 Token 都物尽其用：通过 KV 缓存淘汰提升长上下文性能

Hugging Face Daily Papers 2026/05/10 00:00 论文

摘要

本文提出了一种基于学习的全局保留率 KV 缓存淘汰方法，通过选择性保留有用 Token 并减少注意力稀释来改善长上下文推理能力，同时显著降低内存占用。

键值（KV）缓存是长上下文推理的主要瓶颈，其内存和计算成本随序列长度增长。现有的 KV 缓存淘汰方法虽然能降低这一成本，但通常会导致性能低于完整缓存推理。我们的核心观点是：完整缓存注意力并非总是最优的；在长上下文中，无关 Token 可能会稀释对有用证据的注意力，因此可学习的选择性淘汰不仅能近似完整缓存，还能改善生成效果。我们提出了一种基于全局保留率的 KV 缓存淘汰方法，该方法在统一的内存预算下学习每个 Token 的未来效用。轻量级的保留门为缓存的 KV 条目分配效用分数，并通过共享的最终评分投影在所有层和注意力头之间对这些分数进行校准。这使得单一的全球淘汰策略成为可能，其中来自不同层、不同注意力头以及不同模态的 Token 直接竞争缓存容量。我们进一步提供了理论分析，证明优先保留有用 Token 可以减少注意力稀释，并论证了几何保留作为未来效用的与查询无关的代理指标是合理的。在多种长上下文语言及视觉-语言推理、多轮对话基准测试中，我们的方法在显著降低 KV 内存占用的同时，性能与完整缓存推理持平甚至超越。这些结果表明，经过学习且全局校准的 KV 缓存淘汰不仅是一种压缩技术，也是一种提升长上下文推理能力的机制。

查看原文

查看缓存全文

缓存时间: 2026/05/12 02:49

论文页面 - Make Each Token Count: Towards Improving Long-Context Performance with KV Cache Eviction

来源：https://huggingface.co/papers/2605.09649

摘要

基于全局保留率（global retention）的学习型键值（KV）缓存淘汰策略，通过选择性保留有用 token 同时降低内存使用，从而提升长上下文推理能力。

键值（KV）缓存是长上下文推理（https://huggingface.co/papers?q=long-context%20inference）的主要瓶颈，其内存和计算开销随序列长度增长。现有的 KV 淘汰（https://huggingface.co/papers?q=KV%20eviction）方法虽然降低了成本，但通常会导致性能低于全缓存推理。我们的核心洞察是：全缓存注意力机制并非总是最优的；在长上下文中，无关 token 会稀释对有用证据的注意力，因此选择性、可学习的淘汰策略能够改进生成效果，而不仅仅是近似全缓存。我们提出了一种基于全局保留率（https://huggingface.co/papers?q=global%20retention）的 KV 淘汰（https://huggingface.co/papers?q=KV%20eviction）方法，在统一的内存预算（https://huggingface.co/papers?q=memory%20budget）下学习每个 token 的未来效用。轻量级保留门控（https://huggingface.co/papers?q=retention%20gates）为缓存的 KV 条目分配效用分数，并通过共享的最终评分投影层校准所有层和头部的这些分数。这实现了一种单一的全局淘汰策略，使得来自不同层、头部和模态的 token 直接竞争缓存容量（https://huggingface.co/papers?q=cache%20capacity）。我们进一步提供了理论分析，表明优先保留有用 token 能减少注意力稀释（https://huggingface.co/papers?q=attention%20dilution），并论证了几何保留率（geometric retention）作为未来效用的查询无关代理（https://huggingface.co/papers?q=query-agnostic%20proxy）的合理性。在多样化的长上下文语言、视觉语言推理以及多轮对话基准测试中，我们的方法显著降低了 KV 内存占用，同时达到或超越了全缓存推理的性能。这些结果表明，经过学习且全局校准的 KV 淘汰（https://huggingface.co/papers?q=KV%20eviction）不仅是一种压缩技术，也是一种提升长上下文推理能力的机制。

查看 arXiv 页面 (https://arxiv.org/abs/2605.09649) 查看 PDF (https://arxiv.org/pdf/2605.09649) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.09649)

在您的 Agent 中获取此论文：

hf papers read 2605\.09649

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

无模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.09649 即可从本页链接该模型。

引用此论文的数据集 0

无数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.09649 即可从本页链接该数据集。

引用此论文的 Space 0

无 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.09649 即可从本页链接该 Space。

让每个 Token 都物尽其用：通过 KV 缓存淘汰提升长上下文性能

论文页面 - Make Each Token Count: Towards Improving Long-Context Performance with KV Cache Eviction

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Space 0

包含此论文的合集 1

相似文章

基于顿悟感知的KV缓存淘汰方法（无需注意力矩阵）

TTKV：面向长上下文LLM推理的时间分层KV缓存

开源 InfiniteKV：一种 KV 缓存，将旧 token 压缩为 104 字节的可搜索记录存储在内存或磁盘中，而非删除。Mistral-7B 从 token 76,747 处作答，超出其训练窗口 2.3 倍。附 Colab 演示

KV Packet: 免重计算的上下文无关KV缓存用于大语言模型

面向长推理的信息感知KV缓存压缩

提交意见反馈