针对推理模型的价值感知随机KV缓存驱逐方法

Hugging Face Daily Papers 论文

摘要

VaSE是一种无需训练的KV缓存驱逐方法,它保护大数值幅度的值状态,并引入随机性,以提高压缩下推理模型的准确性,超越了现有方法。

推理模型通过扩展的思维链提高准确性,但它们的长输出造成了内存和计算瓶颈。KV缓存驱逐方法通过从缓存中驱逐不重要的键值对来降低成本,但与保留完整KV缓存的基于选择的稀疏注意力替代方案相比,它们往往产生更差的准确性。我们识别出对KV缓存驱逐准确性至关重要的关键因素。首先,一小部分值状态具有异常大的数值幅度,驱逐它们会导致灾难性失败,模型进入重复推理循环。其次,在驱逐过程中引入随机性通过增加缓存多样性来提高准确性。基于这些发现,我们提出了价值感知随机KV缓存驱逐(VaSE),这是一种无需训练的方法,保护大数值幅度的值状态,并促进多样化的驱逐决策。在六个推理任务上,使用VaSE且进行4倍KV缓存压缩的Qwen3模型,在相同稀疏度下比SOTA选择方法获得更高的平均准确率,同时比最强的驱逐方法高出4%以上。总体而言,VaSE弥合了效率与准确性之间的差距,支持FlashAttention2,并为推理模型实现了静态内存占用。
查看原文
查看缓存全文

缓存时间: 2026/06/03 07:36

论文页面 - 面向推理模型的价值感知随机KV缓存驱逐

来源:https://huggingface.co/papers/2606.03928

摘要

价值感知随机KV缓存驱逐方法通过保护大幅值状态并促进多样化的驱逐决策,在压缩条件下提高了推理模型的准确率。

推理模型 (https://huggingface.co/papers?q=Reasoning%20models) 通过扩展的思维链提高准确性,但其长输出导致了内存和计算瓶颈。KV缓存驱逐 (https://huggingface.co/papers?q=KV%20cache%20eviction) 方法通过驱逐缓存中不重要的键值对来降低这一成本,但它们的准确性通常低于基于选择的稀疏注意力 (https://huggingface.co/papers?q=sparse%20attention) 替代方案,后者保留完整的KV缓存。我们识别出对KV缓存驱逐 (https://huggingface.co/papers?q=KV%20cache%20eviction) 准确性至关重要的关键因素。首先,一小部分值状态 (https://huggingface.co/papers?q=value%20states) 具有异常大的幅值,驱逐它们会导致灾难性失败,模型陷入重复推理循环。其次,在驱逐过程中引入随机性 (https://huggingface.co/papers?q=stochasticity) 通过增加缓存多样性 (https://huggingface.co/papers?q=cache%20diversity) 提高了准确性。基于这些发现,我们提出了价值感知随机KV缓存驱逐 (https://huggingface.co/papers?q=KV%20Cache%20Eviction) (VaSE),这是一种无需训练的方案,保护大幅值状态 (https://huggingface.co/papers?q=value%20states) 并促进多样化的驱逐决策。在六个推理任务上,使用VaSE进行4倍KV缓存压缩的Qwen3模型,在相同稀疏度下实现了比最先进选择方法更高的平均准确率,同时以超过4%的优势优于最强的驱逐方法。总体而言,VaSE弥合了效率与准确性之间的差距,支持FlashAttention2 (https://huggingface.co/papers?q=FlashAttention2) ,并为推理模型 (https://huggingface.co/papers?q=reasoning%20models) 实现了静态内存占用。

查看arXiv页面 (https://arxiv.org/abs/2606.03928) 查看PDF (https://arxiv.org/pdf/2606.03928) GitHub0 (https://github.com/terarachang/VaSE) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.03928)

在您的代理中获取此论文:

hf papers read 2606.03928

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

尚无模型链接此论文

在模型README.md中引用arxiv.org/abs/2606.03928,以便从此页面链接。

引用此论文的数据集0

尚无数据集链接此论文

在数据集README.md中引用arxiv.org/abs/2606.03928,以便从此页面链接。

引用此论文的Spaces0

尚无Space链接此论文

在Space的README.md中引用arxiv.org/abs/2606.03928,以便从此页面链接。

包含此论文的集合0

尚无集合包含此论文

将本论文添加至一个集合 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章