KVarN：方差归一化的KV缓存量化减轻推理任务中的错误累积

Hugging Face Daily Papers 2026/06/02 00:00 论文

摘要

KVarN是一个免校准的KV缓存量化器，它使用哈达玛旋转和双缩放方差归一化来减少大型语言模型自回归解码过程中的错误累积，在推理基准上实现了最先进的2位精度。

测试时缩放是一种在大型语言模型中获得更好推理能力的强大方法，但在长时程解码过程中，由于KV缓存的增长，它成为内存瓶颈。KV缓存量化有助于改善这一点，但当前方法在预填充类设置下进行评估，而错误在自回归解码下表现不同。我们表明，在后一种情况下，量化错误随时间步累积，主要由不正确的令牌缩放引起。我们引入了KVarN，一种免校准的KV缓存量化器，它对K和V矩阵的两个轴应用哈达玛旋转，然后进行双缩放方差归一化。我们发现，这种组合修复了异常的令牌缩放错误，并大大减少了与现有基线相比的错误累积。KVarN在生成基准测试（包括MATH500、AIME24和HumanEval）上以2位精度建立了KV缓存量化的最先进水平。KVarN方法的vLLM实现可在https://github.com/huawei-csl/KVarN获取。

查看原文

查看缓存全文

缓存时间: 2026/06/03 15:38

论文页面 - KVarN：方差归一化KV缓存量化可缓解推理任务中的误差累积

来源：https://huggingface.co/papers/2606.03458

摘要

KVarN 是一种免标定的 KV 缓存量化器，通过哈达玛旋转与双尺度方差归一化，在大语言模型的自回归解码过程中减少误差累积。

测试时扩展是提升大语言模型推理能力的强大方法，但在长时间解码过程中，由于 KV 缓存不断增长，内存会成为瓶颈。KV 缓存量化（https://huggingface.co/papers?q=KV-cache%20quantization）有助于改善这一问题，但现有方法是在类似预填充（prefill）的设置下评估的，而自回归解码（https://huggingface.co/papers?q=autoregressive%20decoding）场景下的误差行为截然不同。我们证明，在后一种场景下，量化误差随时间步累积，其主要驱动因素来自错误的令牌尺度（https://huggingface.co/papers?q=token%20scales）。我们提出 KVarN（https://huggingface.co/papers?q=KVarN），一种免标定的 KV 缓存量化器，它对 K 和 V 矩阵的两个轴依次应用哈达玛旋转（https://huggingface.co/papers?q=Hadamard%20rotation）和双尺度方差归一化（https://huggingface.co/papers?q=dual-scaling%20variance%20normalization）。我们发现这种组合能够修复异常的令牌尺度误差，并显著降低相对于现有基线的误差累积（https://huggingface.co/papers?q=error%20accumulation）。KVarN（https://huggingface.co/papers?q=KVarN）在生成类基准测试（包括 MATH500、AIME24 和 HumanEval）的 2 位精度上，为 KV 缓存量化（https://huggingface.co/papers?q=KV-cache%20quantization）建立了新的最优水平。KVarN（https://huggingface.co/papers?q=KVarN）方法的 vLLM 实现可在 https://github.com/huawei-csl/KVarN（https://huggingface.co/papers?q=KVarN）获取。

查看 arXiv 页面（https://arxiv.org/abs/2606.03458）查看 PDF（https://arxiv.org/pdf/2606.03458）项目页面（https://github.com/huawei-csl/KVarN）GitHub25（https://github.com/huawei-csl/KVarN）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.03458）

在你的 agent 中获取这篇论文：

hf papers read 2606\.03458

没有最新版 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本文的模型0

未链接到这篇论文的模型

请将 arxiv.org/abs/2606.03458 引用到模型的 README.md 中，即可在此页面建立链接。

引用本文的数据集0

未链接到这篇论文的数据集

请将 arxiv.org/abs/2606.03458 引用到数据集的 README.md 中，即可在此页面建立链接。

引用本文的 Space0

未链接到这篇论文的 Space

请将 arxiv.org/abs/2606.03458 引用到 Space 的 README.md 中，即可在此页面建立链接。

KVarN：方差归一化的KV缓存量化减轻推理任务中的错误累积

论文页面 - KVarN：方差归一化KV缓存量化可缓解推理任务中的误差累积

摘要

引用本文的模型0

引用本文的数据集0

引用本文的 Space0

收录本文的收藏1

相似文章

KVarN：华为推出的原生 vLLM KV 缓存量化后端

RateQuant：基于率失真理论的优化混合精度KV Cache量化

受 TurboQuant 启发的 KV 缓存量化方案的统计推断与质量评估

KV缓存压缩比TurboQuant与逐向量香农极限高出900000倍

VarRate: 无训练的可变速率KV缓存压缩用于长上下文大语言模型

提交意见反馈