针对推理模型的价值感知随机KV缓存驱逐方法

Hugging Face Daily Papers 2026/06/02 17:16 论文

kv-cache eviction reasoning-models value-aware stochastic compression efficiency

摘要

VaSE是一种无需训练的KV缓存驱逐方法，它保护大数值幅度的值状态，并引入随机性，以提高压缩下推理模型的准确性，超越了现有方法。

推理模型通过扩展的思维链提高准确性，但它们的长输出造成了内存和计算瓶颈。KV缓存驱逐方法通过从缓存中驱逐不重要的键值对来降低成本，但与保留完整KV缓存的基于选择的稀疏注意力替代方案相比，它们往往产生更差的准确性。我们识别出对KV缓存驱逐准确性至关重要的关键因素。首先，一小部分值状态具有异常大的数值幅度，驱逐它们会导致灾难性失败，模型进入重复推理循环。其次，在驱逐过程中引入随机性通过增加缓存多样性来提高准确性。基于这些发现，我们提出了价值感知随机KV缓存驱逐（VaSE），这是一种无需训练的方法，保护大数值幅度的值状态，并促进多样化的驱逐决策。在六个推理任务上，使用VaSE且进行4倍KV缓存压缩的Qwen3模型，在相同稀疏度下比SOTA选择方法获得更高的平均准确率，同时比最强的驱逐方法高出4%以上。总体而言，VaSE弥合了效率与准确性之间的差距，支持FlashAttention2，并为推理模型实现了静态内存占用。

查看原文

查看缓存全文

缓存时间: 2026/06/03 07:36

论文页面 - 面向推理模型的价值感知随机KV缓存驱逐

来源：https://huggingface.co/papers/2606.03928

摘要

价值感知随机KV缓存驱逐方法通过保护大幅值状态并促进多样化的驱逐决策，在压缩条件下提高了推理模型的准确率。

推理模型 (https://huggingface.co/papers?q=Reasoning%20models) 通过扩展的思维链提高准确性，但其长输出导致了内存和计算瓶颈。KV缓存驱逐 (https://huggingface.co/papers?q=KV%20cache%20eviction) 方法通过驱逐缓存中不重要的键值对来降低这一成本，但它们的准确性通常低于基于选择的稀疏注意力 (https://huggingface.co/papers?q=sparse%20attention) 替代方案，后者保留完整的KV缓存。我们识别出对KV缓存驱逐 (https://huggingface.co/papers?q=KV%20cache%20eviction) 准确性至关重要的关键因素。首先，一小部分值状态 (https://huggingface.co/papers?q=value%20states) 具有异常大的幅值，驱逐它们会导致灾难性失败，模型陷入重复推理循环。其次，在驱逐过程中引入随机性 (https://huggingface.co/papers?q=stochasticity) 通过增加缓存多样性 (https://huggingface.co/papers?q=cache%20diversity) 提高了准确性。基于这些发现，我们提出了价值感知随机KV缓存驱逐 (https://huggingface.co/papers?q=KV%20Cache%20Eviction) (VaSE)，这是一种无需训练的方案，保护大幅值状态 (https://huggingface.co/papers?q=value%20states) 并促进多样化的驱逐决策。在六个推理任务上，使用VaSE进行4倍KV缓存压缩的Qwen3模型，在相同稀疏度下实现了比最先进选择方法更高的平均准确率，同时以超过4%的优势优于最强的驱逐方法。总体而言，VaSE弥合了效率与准确性之间的差距，支持FlashAttention2 (https://huggingface.co/papers?q=FlashAttention2) ，并为推理模型 (https://huggingface.co/papers?q=reasoning%20models) 实现了静态内存占用。

查看arXiv页面 (https://arxiv.org/abs/2606.03928) 查看PDF (https://arxiv.org/pdf/2606.03928) GitHub0 (https://github.com/terarachang/VaSE) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.03928)

在您的代理中获取此论文：

hf papers read 2606.03928

没有最新的CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

尚无模型链接此论文

在模型README.md中引用arxiv.org/abs/2606.03928，以便从此页面链接。

引用此论文的数据集0

尚无数据集链接此论文

在数据集README.md中引用arxiv.org/abs/2606.03928，以便从此页面链接。

引用此论文的Spaces0

尚无Space链接此论文

在Space的README.md中引用arxiv.org/abs/2606.03928，以便从此页面链接。

包含此论文的集合0

尚无集合包含此论文

将本论文添加至一个集合 (https://huggingface.co/new-collection) 以从此页面链接。

针对推理模型的价值感知随机KV缓存驱逐方法

论文页面 - 面向推理模型的价值感知随机KV缓存驱逐

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Spaces0

包含此论文的集合0

相似文章

ReST-KV：基于逐层输出重构与时空平滑的鲁棒 KV Cache 驱逐方法

价值感知KV缓存淘汰何时有效？一种针对非单调缓存压缩的固定契约诊断方法

CONF-KV: 置信度感知的KV缓存淘汰与混合精度存储用于长视界大语言模型

KVarN：方差归一化的KV缓存量化减轻推理任务中的错误累积

@Michaelzsguo: KV缓存是模型在生成期间的工作记忆。随着上下文窗口变长，模型必须保留更多…

提交意见反馈