针对推理模型的价值感知随机KV缓存驱逐方法
摘要
VaSE是一种无需训练的KV缓存驱逐方法,它保护大数值幅度的值状态,并引入随机性,以提高压缩下推理模型的准确性,超越了现有方法。
查看缓存全文
缓存时间: 2026/06/03 07:36
论文页面 - 面向推理模型的价值感知随机KV缓存驱逐
来源:https://huggingface.co/papers/2606.03928
摘要
价值感知随机KV缓存驱逐方法通过保护大幅值状态并促进多样化的驱逐决策,在压缩条件下提高了推理模型的准确率。
推理模型 (https://huggingface.co/papers?q=Reasoning%20models) 通过扩展的思维链提高准确性,但其长输出导致了内存和计算瓶颈。KV缓存驱逐 (https://huggingface.co/papers?q=KV%20cache%20eviction) 方法通过驱逐缓存中不重要的键值对来降低这一成本,但它们的准确性通常低于基于选择的稀疏注意力 (https://huggingface.co/papers?q=sparse%20attention) 替代方案,后者保留完整的KV缓存。我们识别出对KV缓存驱逐 (https://huggingface.co/papers?q=KV%20cache%20eviction) 准确性至关重要的关键因素。首先,一小部分值状态 (https://huggingface.co/papers?q=value%20states) 具有异常大的幅值,驱逐它们会导致灾难性失败,模型陷入重复推理循环。其次,在驱逐过程中引入随机性 (https://huggingface.co/papers?q=stochasticity) 通过增加缓存多样性 (https://huggingface.co/papers?q=cache%20diversity) 提高了准确性。基于这些发现,我们提出了价值感知随机KV缓存驱逐 (https://huggingface.co/papers?q=KV%20Cache%20Eviction) (VaSE),这是一种无需训练的方案,保护大幅值状态 (https://huggingface.co/papers?q=value%20states) 并促进多样化的驱逐决策。在六个推理任务上,使用VaSE进行4倍KV缓存压缩的Qwen3模型,在相同稀疏度下实现了比最先进选择方法更高的平均准确率,同时以超过4%的优势优于最强的驱逐方法。总体而言,VaSE弥合了效率与准确性之间的差距,支持FlashAttention2 (https://huggingface.co/papers?q=FlashAttention2) ,并为推理模型 (https://huggingface.co/papers?q=reasoning%20models) 实现了静态内存占用。
查看arXiv页面 (https://arxiv.org/abs/2606.03928) 查看PDF (https://arxiv.org/pdf/2606.03928) GitHub0 (https://github.com/terarachang/VaSE) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.03928)
在您的代理中获取此论文:
hf papers read 2606.03928
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
尚无模型链接此论文
在模型README.md中引用arxiv.org/abs/2606.03928,以便从此页面链接。
引用此论文的数据集0
尚无数据集链接此论文
在数据集README.md中引用arxiv.org/abs/2606.03928,以便从此页面链接。
引用此论文的Spaces0
尚无Space链接此论文
在Space的README.md中引用arxiv.org/abs/2606.03928,以便从此页面链接。
包含此论文的集合0
尚无集合包含此论文
将本论文添加至一个集合 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
ReST-KV:基于逐层输出重构与时空平滑的鲁棒 KV Cache 驱逐方法
本文介绍了 ReST-KV,一种用于大型语言模型的新型鲁棒 KV Cache 驱逐方法。该方法利用逐层输出重构与时空平滑技术来提升效率,显著降低了解码延迟,并在 LongBench 和 RULER 等长上下文基准测试中超越了现有的最先进基线模型。
价值感知KV缓存淘汰何时有效?一种针对非单调缓存压缩的固定契约诊断方法
本文介绍了一种固定契约诊断工具,用于分析KV缓存压缩方法在长上下文LLM推理中成功或失败的原因。文章确定了三种故障模式——遗漏证据、对无关token进行评分以及破坏相关证据——并在LongBench和NeedleBench上对这些模式进行了评估。
CONF-KV: 置信度感知的KV缓存淘汰与混合精度存储用于长视界大语言模型
CONF-KV 是一种KV缓存管理系统,利用模型不确定性动态调整缓存保留策略,从而提升长上下文大语言模型推理的内存效率,同时将困惑度控制在1.5-2.1个点以内。
KVarN:方差归一化的KV缓存量化减轻推理任务中的错误累积
KVarN是一个免校准的KV缓存量化器,它使用哈达玛旋转和双缩放方差归一化来减少大型语言模型自回归解码过程中的错误累积,在推理基准上实现了最先进的2位精度。
@Michaelzsguo: KV缓存是模型在生成期间的工作记忆。随着上下文窗口变长,模型必须保留更多…
DeepSeek的KV缓存压缩创新,包括MLA和CSA/HCA,将KV缓存大小减少了93%,实现了高效的长上下文推理和基于SSD的缓存,正如antirez的ds4.c项目所展示的那样。