KVarN:方差归一化的KV缓存量化减轻推理任务中的错误累积

Hugging Face Daily Papers 论文

摘要

KVarN是一个免校准的KV缓存量化器,它使用哈达玛旋转和双缩放方差归一化来减少大型语言模型自回归解码过程中的错误累积,在推理基准上实现了最先进的2位精度。

测试时缩放是一种在大型语言模型中获得更好推理能力的强大方法,但在长时程解码过程中,由于KV缓存的增长,它成为内存瓶颈。KV缓存量化有助于改善这一点,但当前方法在预填充类设置下进行评估,而错误在自回归解码下表现不同。我们表明,在后一种情况下,量化错误随时间步累积,主要由不正确的令牌缩放引起。我们引入了KVarN,一种免校准的KV缓存量化器,它对K和V矩阵的两个轴应用哈达玛旋转,然后进行双缩放方差归一化。我们发现,这种组合修复了异常的令牌缩放错误,并大大减少了与现有基线相比的错误累积。KVarN在生成基准测试(包括MATH500、AIME24和HumanEval)上以2位精度建立了KV缓存量化的最先进水平。KVarN方法的vLLM实现可在https://github.com/huawei-csl/KVarN获取。
查看原文
查看缓存全文

缓存时间: 2026/06/03 15:38

论文页面 - KVarN:方差归一化KV缓存量化可缓解推理任务中的误差累积

来源:https://huggingface.co/papers/2606.03458

摘要

KVarN 是一种免标定的 KV 缓存量化器,通过哈达玛旋转与双尺度方差归一化,在大语言模型的自回归解码过程中减少误差累积。

测试时扩展是提升大语言模型推理能力的强大方法,但在长时间解码过程中,由于 KV 缓存不断增长,内存会成为瓶颈。KV 缓存量化(https://huggingface.co/papers?q=KV-cache%20quantization)有助于改善这一问题,但现有方法是在类似预填充(prefill)的设置下评估的,而自回归解码(https://huggingface.co/papers?q=autoregressive%20decoding)场景下的误差行为截然不同。我们证明,在后一种场景下,量化误差随时间步累积,其主要驱动因素来自错误的令牌尺度(https://huggingface.co/papers?q=token%20scales)。我们提出 KVarN(https://huggingface.co/papers?q=KVarN),一种免标定的 KV 缓存量化器,它对 K 和 V 矩阵的两个轴依次应用哈达玛旋转(https://huggingface.co/papers?q=Hadamard%20rotation)和双尺度方差归一化(https://huggingface.co/papers?q=dual-scaling%20variance%20normalization)。我们发现这种组合能够修复异常的令牌尺度误差,并显著降低相对于现有基线的误差累积(https://huggingface.co/papers?q=error%20accumulation)。KVarN(https://huggingface.co/papers?q=KVarN)在生成类基准测试(包括 MATH500、AIME24 和 HumanEval)的 2 位精度上,为 KV 缓存量化(https://huggingface.co/papers?q=KV-cache%20quantization)建立了新的最优水平。KVarN(https://huggingface.co/papers?q=KVarN)方法的 vLLM 实现可在 https://github.com/huawei-csl/KVarN(https://huggingface.co/papers?q=KVarN)获取。

查看 arXiv 页面(https://arxiv.org/abs/2606.03458)查看 PDF(https://arxiv.org/pdf/2606.03458)项目页面(https://github.com/huawei-csl/KVarN)GitHub25(https://github.com/huawei-csl/KVarN)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.03458)

在你的 agent 中获取这篇论文:

hf papers read 2606\.03458

没有最新版 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本文的模型0

未链接到这篇论文的模型

请将 arxiv.org/abs/2606.03458 引用到模型的 README.md 中,即可在此页面建立链接。

引用本文的数据集0

未链接到这篇论文的数据集

请将 arxiv.org/abs/2606.03458 引用到数据集的 README.md 中,即可在此页面建立链接。

引用本文的 Space0

未链接到这篇论文的 Space

请将 arxiv.org/abs/2606.03458 引用到 Space 的 README.md 中,即可在此页面建立链接。

收录本文的收藏1

相似文章

KVarN:华为推出的原生 vLLM KV 缓存量化后端

Hacker News Top

华为 CSL 发布 KVarN,这是一个原生 vLLM 注意力后端,专为 KV 缓存量化设计。它无需校准即可实现 3-5 倍的 KV 缓存容量提升,以及高达约 1.3 倍于 FP16 的吞吐量。在 Qwen3-32B 等模型上,其吞吐量最高可达 TurboQuant 的约 2.4 倍,同时保持与 FP16 相当的精度。

KV缓存压缩比TurboQuant与逐向量香农极限高出900000倍

Hacker News Top

一篇新论文提出了一种基于概率语言Trie树和预测差分编码的顺序KV缓存压缩方法。该方法通过利用语言模型Token的序列结构而非对向量进行独立处理,实现了超越TurboQuant约91.4万倍的理论压缩比。