KVarN:方差归一化的KV缓存量化减轻推理任务中的错误累积
摘要
KVarN是一个免校准的KV缓存量化器,它使用哈达玛旋转和双缩放方差归一化来减少大型语言模型自回归解码过程中的错误累积,在推理基准上实现了最先进的2位精度。
查看缓存全文
缓存时间: 2026/06/03 15:38
论文页面 - KVarN:方差归一化KV缓存量化可缓解推理任务中的误差累积
来源:https://huggingface.co/papers/2606.03458
摘要
KVarN 是一种免标定的 KV 缓存量化器,通过哈达玛旋转与双尺度方差归一化,在大语言模型的自回归解码过程中减少误差累积。
测试时扩展是提升大语言模型推理能力的强大方法,但在长时间解码过程中,由于 KV 缓存不断增长,内存会成为瓶颈。KV 缓存量化(https://huggingface.co/papers?q=KV-cache%20quantization)有助于改善这一问题,但现有方法是在类似预填充(prefill)的设置下评估的,而自回归解码(https://huggingface.co/papers?q=autoregressive%20decoding)场景下的误差行为截然不同。我们证明,在后一种场景下,量化误差随时间步累积,其主要驱动因素来自错误的令牌尺度(https://huggingface.co/papers?q=token%20scales)。我们提出 KVarN(https://huggingface.co/papers?q=KVarN),一种免标定的 KV 缓存量化器,它对 K 和 V 矩阵的两个轴依次应用哈达玛旋转(https://huggingface.co/papers?q=Hadamard%20rotation)和双尺度方差归一化(https://huggingface.co/papers?q=dual-scaling%20variance%20normalization)。我们发现这种组合能够修复异常的令牌尺度误差,并显著降低相对于现有基线的误差累积(https://huggingface.co/papers?q=error%20accumulation)。KVarN(https://huggingface.co/papers?q=KVarN)在生成类基准测试(包括 MATH500、AIME24 和 HumanEval)的 2 位精度上,为 KV 缓存量化(https://huggingface.co/papers?q=KV-cache%20quantization)建立了新的最优水平。KVarN(https://huggingface.co/papers?q=KVarN)方法的 vLLM 实现可在 https://github.com/huawei-csl/KVarN(https://huggingface.co/papers?q=KVarN)获取。
查看 arXiv 页面(https://arxiv.org/abs/2606.03458)查看 PDF(https://arxiv.org/pdf/2606.03458)项目页面(https://github.com/huawei-csl/KVarN)GitHub25(https://github.com/huawei-csl/KVarN)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.03458)
在你的 agent 中获取这篇论文:
hf papers read 2606\.03458
没有最新版 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用本文的模型0
未链接到这篇论文的模型
请将 arxiv.org/abs/2606.03458 引用到模型的 README.md 中,即可在此页面建立链接。
引用本文的数据集0
未链接到这篇论文的数据集
请将 arxiv.org/abs/2606.03458 引用到数据集的 README.md 中,即可在此页面建立链接。
引用本文的 Space0
未链接到这篇论文的 Space
请将 arxiv.org/abs/2606.03458 引用到 Space 的 README.md 中,即可在此页面建立链接。
收录本文的收藏1
相似文章
KVarN:华为推出的原生 vLLM KV 缓存量化后端
华为 CSL 发布 KVarN,这是一个原生 vLLM 注意力后端,专为 KV 缓存量化设计。它无需校准即可实现 3-5 倍的 KV 缓存容量提升,以及高达约 1.3 倍于 FP16 的吞吐量。在 Qwen3-32B 等模型上,其吞吐量最高可达 TurboQuant 的约 2.4 倍,同时保持与 FP16 相当的精度。
RateQuant:基于率失真理论的优化混合精度KV Cache量化
本文介绍了 RateQuant,一种用于优化混合精度 KV Cache 量化的方法。该方法利用率失真理论解决失真模型不匹配问题,与 KIVI 和 QuaRot 等现有方法相比,在极低的校准开销下显著降低了困惑度。
受 TurboQuant 启发的 KV 缓存量化方案的统计推断与质量评估
本文分析了受 TurboQuant 启发的 KV 缓存量化方案,利用统计推断和新的 6D 误差框架来评估 KL 散度、几何误差等质量指标。
KV缓存压缩比TurboQuant与逐向量香农极限高出900000倍
一篇新论文提出了一种基于概率语言Trie树和预测差分编码的顺序KV缓存压缩方法。该方法通过利用语言模型Token的序列结构而非对向量进行独立处理,实现了超越TurboQuant约91.4万倍的理论压缩比。
@JakeKAllDay: 华为发布了一篇关于一种名为KVarN的新型KV压缩方法的论文:它证明了低至 *2 bit* 量化时损失极小…
华为发布了一篇关于KVarN的论文,这是一种新型KV缓存压缩方法,在2位量化下与FP16相比实现了极小损失,优于TurboQuant和KIVI等方法,且几乎不引入推理延迟。