量化键偷走注意力:视频扩散中KV缓存压缩的偏差校正

arXiv cs.LG 论文

摘要

本文指出,在分块自回归视频扩散的KV缓存压缩中,对键进行量化会导致注意力权重出现偏差,并提出了一种每注意力分数校正方法,该方法以可忽略的开销消除偏差,在INT2量化下恢复接近BF16的视频质量。

arXiv:2605.26266v1 公告类型:新 摘要:分块自回归视频扩散模型依赖于先前生成块的KV缓存来避免冗余计算,但随着视频增长,该缓存很快成为内存瓶颈。将KV缓存量化为低位宽的方法减少了内存压力,但降低了视频质量。我们表明,这种下降的一个关键原因是注意力权重中的系统性偏差:由于softmax注意力中指数的凸性,量化噪声膨胀了缓存键的贡献,我们称之为Jensen偏差。这种效应导致量化键从未量化的当前块中窃取注意力权重。我们推导出一种每注意力分数校正方法,该校正方法在期望上消除这种偏差,通过缓存键的量化步长和查询范数即时计算。使用二阶泰勒近似,额外的计算开销可忽略不计,且无需在缓存之外增加额外内存。在MAGI-1、SkyReels-V2和HY-WorldPlay上进行INT2量化评估,我们的校正恢复了大部分因激进量化而损失的质量,达到接近BF16的视频质量,并且在使用50%更少内存的情况下可以超越INT4量化。
查看原文
查看缓存全文

缓存时间: 2026/05/27 09:06

# 量化键值窃取注意力:视频扩散中KV缓存压缩的偏差校正
来源:https://arxiv.org/html/2605.26266
Tuna Tuncer1,2Felix Becker2,†\\daggerThomas Pfeil2,†\\dagger 1慕尼黑工业大学 2Tensordyne tuna\.tuncer@tum\.defelix\.becker@tensordyne\.aithomas\.pfeil@tensordyne\.ai

###### 摘要

基于分块自回归的视频扩散模型依赖先前生成块的KV缓存来避免冗余计算,但随着视频长度增加,缓存迅速成为内存瓶颈。将KV缓存量化至低位宽的方法虽能缓解内存压力,但会降低视频质量。我们发现,这种性能下降的关键驱动力是注意力权重中的系统性偏差:由于softmax注意力中指数函数的凸性,量化噪声会放大缓存键的贡献,我们将这种现象称为**詹森偏差**。该效应导致量化后的键从当前未量化的分块中抢夺注意力权重。我们推导出每个注意力分数的校正项,该校正项可从缓存键的量化步长和查询范数在线计算,在期望意义上消除此偏差。通过二阶泰勒近似,额外计算开销可忽略不计,且无需在缓存外增加额外内存。在MAGI-1、SkyReels-V2和HY-WorldPlay上的INT2量化评估中,我们的校正方法恢复了因激进量化而损失的大部分质量,达到接近BF16的视频质量,且在使用INT4量化一半内存的情况下表现更优。

## 1 引言

视频扩散模型在生成短时、高保真剪辑方面取得了显著进展(Yang等人,2025 (https://arxiv.org/html/2605.26266#bib.bib33);Kong等人,2025 (https://arxiv.org/html/2605.26266#bib.bib32);Team Wan等人,2025 (https://arxiv.org/html/2605.26266#bib.bib34))。近期关于视频生成模型的工作引入了分块自回归视频扩散,其中每帧分块独立去噪,并关注先前生成的分块(Chen等人,2024 (https://arxiv.org/html/2605.26266#bib.bib35);Yin等人,2025 (https://arxiv.org/html/2605.26266#bib.bib36);Sand\.ai等人,2025 (https://arxiv.org/html/2605.26266#bib.bib12);Chen等人,2025 (https://arxiv.org/html/2605.26266#bib.bib43);Sun等人,2025 (https://arxiv.org/html/2605.26266#bib.bib13))。为了避免在每个去噪步骤中重新计算过去分块的键和值表示,自回归模型将其存储在KV缓存中,并在后续分块中复用。在此设置下,KV缓存充当模型的时间记忆:它决定了在模拟下一视频分块或世界轨迹时,有多少先前生成的视觉上下文仍然可用。

请参见图注Figure 1:MAGI-1上两个代表性提示词的定性比较。各列显示同一生成视频中的连续帧。从上到下依次为:BF16基线;键和值的非对称INT2 (QuaRot+RTN) KV缓存量化;使用我们校正后的相同量化设置。INT2量化迅速破坏了主体和场景结构,而我们的校正方法显著恢复了类似BF16的视觉质量和时间一致性。请参见图注Figure 2:MAGI-1在INT2 KV缓存量化下对提示词“a person”的注意力权重。可视化取自一个代表性层、时间步和注意力头。面板(b)显示,与(a)中的BF16基线相比,量化增加了缓存令牌块中的注意力权重,并减少了当前分块中的注意力权重。这种效应由缓存令牌块和当前分块的*注意力质量*PSP\_\{\\mathcal\{S\}\}和PRP\_\{\\mathcal\{R\}\}量化表示。(c)显示我们的校正方法很大程度上恢复了原始注意力权重。请参见图注Figure 3:*詹森偏差*及其在单个注意力分数上的校正示意图。左图:零均值的量化噪声δ∼Uniform\[−Δ/2,Δ/2\]\\delta\\sim\\mathrm\{Uniform\}\[\-\\Delta/2,\\Delta/2\]产生以ss为中心的有噪声分数s^=s\+δ\\hat\{s\}=s\+\\delta。中图:取指数后,分布变为右偏:其均值E\[es^\]\\mathbb\{E\}\[e^\{\\hat\{s\}\}\]严格超过ese^\{s\},差值称为*詹森偏差*。右图:减去校正项bb可将均值E\[es^−b\]\\mathbb\{E\}\[e^\{\\hat\{s\}\-b\}\]移至更接近ese^\{s\}的位置,从而在很大程度上消除系统性的詹森偏差。为了进一步降低注意力成本,MAGI-1(Sand\.ai等人,2025 (https://arxiv.org/html/2605.26266#bib.bib12))关注最后nn个缓存分块的滑动窗口,使得视频长度的缩放从二次变为线性。这种设计引入了一个基本的内存–上下文权衡:增加窗口大小可以通过提供更多过去上下文来改善时间一致性,但同时也会成比例地增加KV缓存的大小。由于实际系统中的内存容量、内存带宽和延迟限制,窗口大小必须受到限制,从而限制了模型可用的时间信息,并损害了长程一致性(Xi等人,2026 (https://arxiv.org/html/2605.26266#bib.bib17);Samuel等人,2026 (https://arxiv.org/html/2605.26266#bib.bib16))。

KV缓存量化通过将缓存的键和值压缩到更低位宽,直接针对底层内存瓶颈,从而缓解了这一权衡:相同的内存预算可以支持更大的上下文窗口,或者可以更高效地存储固定窗口。先前关于LLM推理中KV缓存量化的研究(Liu等人,2024 (https://arxiv.org/html/2605.26266#bib.bib1);Hooper等人,2024 (https://arxiv.org/html/2605.26266#bib.bib2);Ashkboos等人,2024 (https://arxiv.org/html/2605.26266#bib.bib4))已建立了低至2位精度的有效技术。对于自回归视频模型,我们发现INT4 KV缓存量化可保持合理的质量,而降低到INT2会导致严重失真的帧(图 ̃1 (https://arxiv.org/html/2605.26266#S1.F1)、图 ̃A2 (https://arxiv.org/html/2605.26266#A9.F2)和图 ̃A3 (https://arxiv.org/html/2605.26266#A10.F3))。

我们识别出在激进的量化下,*注意力质量*向缓存令牌转移是造成这种质量下降的一个重要原因(示例见图 ̃2 (https://arxiv.org/html/2605.26266#S1.F2),定义见第 ̃4.1 节 (https://arxiv.org/html/2605.26266#S4.SS1))。这种转移在各层、各头部、各个去噪步骤和提示词中一致出现,并且与较差的视频质量相关(图 ̃1 (https://arxiv.org/html/2605.26266#S1.F1))。整数量化向缓存的键中引入了近似零均值的噪声,使得softmax之前的注意力分数在期望上保持无偏。然而,softmax中的指数函数打破了这种对称性:由于其凸性,正偏差被放大的幅度超过等幅负偏差被抑制的幅度。结果,一个对称的分数级噪声分布在取指数后变为右偏,其均值系统地超过了原始未量化分数的指数(图 ̃3 (https://arxiv.org/html/2605.26266#S1.F3))。我们将这种由凸性引起的系统性膨胀称为*詹森偏差*,因为它属于概率论中研究的詹森间隙(Gao等人,2020 (https://arxiv.org/html/2605.26266#bib.bib42))的一个实例。在分块自回归视频扩散中,这种偏差以牺牲当前分块为代价,夸大了缓存令牌对softmax分区和的贡献。

我们的校正方法直接针对詹森偏差。由于该偏差是系统性的,因此可以从推理时可用的量中估计,并在softmax之前从缓存键的注意力分数中减去。这无需重新训练或修改量化的KV缓存值即可恢复缓存令牌和当前令牌之间的平衡(图 ̃2 (https://arxiv.org/html/2605.26266#S1.F2))。

我们的贡献如下:

- •我们识别出詹森偏差,即由KV缓存量化引起的系统性膨胀:零均值的缓存键分数扰动夸大了缓存令牌的期望softmax贡献,并将注意力质量从未量化的当前分块转移出去。
- •我们推导出一个理论基础的每注意力分数校正项,并展示一个简单的二阶泰勒近似能够产生一个有效且实用的公式,其额外开销可忽略不计。
- •我们在多个模型和量化方案上展示了一致的基准改进,从注意力级诊断到端到端视频质量验证了所提出的校正方法。

## 2 相关工作

#### LLM的KV缓存量化。

KV缓存是长上下文LLM推理中众所周知的内存瓶颈(Kwon et al., 2023 (https://arxiv.org/html/2605.26266#bib.bib5)),越来越多的研究通过量化来解决这一问题:KIVI(Liu等人,2024 (https://arxiv.org/html/2605.26266#bib.bib1))对KV缓存元素分布进行了早期系统性研究,观察到键存在通道级异常值而值没有,并利用这种不对称性实现了免调优的2位KV量化。KVQuant(Hooper等人,2024 (https://arxiv.org/html/2605.26266#bib.bib2))将逐通道键量化与校准到经验KV分布的非均匀数据类型以及显式隔离异常值条目相结合,将KV缓存推到4位以下,同时最小化困惑度损失。QuaRot(Ashkboos等人,2024 (https://arxiv.org/html/2605.26266#bib.bib4))在量化前应用Hadamard旋转来分散通道级异常值,从而实现了无异常值的4位推理。TurboQuant(Zandieh等人,2025 (https://arxiv.org/html/2605.26266#bib.bib40))类似地利用随机旋转,将KV缓存压缩视为在线矢量量化问题,并在旋转空间应用标量量化,以在低位宽下实现接近最优的失真。AsymKV(Tao等人,2024 (https://arxiv.org/html/2605.26266#bib.bib6))观察到模型损失对键量化的敏感度高于值量化,并提出了逐层非对称比特分配,这支持了我们聚焦于键缓存量化的观点。我们的工作与上述方法正交,因为我们并未改进量化方案本身,而是通过分析校正了由任何此类方案引入的注意力权重的系统性偏差。

#### 注意力敏感性与校正。

若干工作研究了量化及其他扰动如何影响注意力机制。Pandey等人(2023 (https://arxiv.org/html/2605.26266#bib.bib7))表明,量化softmax计算会在softmax输出中引入较大偏差,降低生成模型的准确性,并提出了一种可折叠到量化参数中的离线校正方法。我们的工作针对另一个偏差来源,专注于KV缓存量化而非softmax量化。KVLinC(Saxena and Roy, 2025 (https://arxiv.org/html/2605.26266#bib.bib8))在概念上与我们的方法最为接近:它引入了可训练的线性校正适配器来补偿量化键的错误。相比之下,我们的校正是免训练的且解析推导的。SageAttention(Zhang等人,2025 (https://arxiv.org/html/2605.26266#bib.bib9))通过减去通道均值来平滑查询,并向分数中添加校正项。然而,这针对的是QK⊤QK^\{\\top\}乘积的量化友好性,而非指数化引起的系统性偏差。Yao等人(2024 (https://arxiv.org/html/2605.26266#bib.bib10))提出了针对量化扩散模型的时间步感知校正,证明了结构感知校正可以显著减少量化退化,我们的每注意力分数校正也继承了这一原则。

#### 自回归视频扩散与高效缓存。

分块自回归视频扩散模型通过让连续分块关注先前生成的分块(通过KV缓存)来生成视频(Chen等人,2024 (https://arxiv.org/html/2605.26266#bib.bib35);Yin等人,2025 (https://arxiv.org/html/2605.26266#bib.bib36);Sand\.ai等人,2025 (https://arxiv.org/html/2605.26266#bib.bib12);Chen等人,2025 (https://arxiv.org/html/2605.26266#bib.bib43);Sun等人,2025 (https://arxiv.org/html/2605.26266#bib.bib13))。由于缓存随着每个新分块而增长,越来越多的研究旨在通过缓存压缩和驱逐(Ma等人,2026 (https://arxiv.org/html/2605.26266#bib.bib14);Chen等人,2026a (https://arxiv.org/html/2605.26266#bib.bib15);Samuel等人,2026 (https://arxiv.org/html/2605.26266#bib.bib16))、稀疏注意力(Lv等人,2026 (https://arxiv.org/html/2605.26266#bib.bib38))或直接量化缓存状态(Xi等人,2026 (https://arxiv.org/html/2605.26266#bib.bib17))来降低其成本。其中,QuantVideoGen(Xi等人,2026 (https://arxiv.org/html/2605.26266#bib.bib17))与我们的方法关系最为直接:它应用免训练的KV缓存量化,使用语义感知平滑和渐进残差量化来减少量化误差本身。我们的方法是互补的:我们不是减少量化误差,而是解析校正其在softmax注意力中引入的偏差。我们在表 ̃1 (https://arxiv.org/html/2605.26266#S4.T1)中通过实证验证了这种互补性,在MAGI-1上将两种方法组合使用获得了最佳整体结果。

## 3 预备知识

#### 整数量化。

整数量化将浮点值映射到由*缩放步长*Δ\\Delta(即相邻网格级别之间的步长)和*零点*zz定义的离散网格上。给定一个BB位量化目标,每个元素xx被映射为

xq=clamp\(⌊x/Δ⌉\+z,0,2B−1\),x\_\{q\}=\\mathrm\{clamp\}\\\>\\\!\\bigl\(\\lfloor x/\\Delta\\rceil\+z,\\;0,\\;2^\{B\}\{\-\}1\\bigr\),\(1\)其中⌊⋅⌉\\lfloor\\cdot\\rceil表示四舍五入取整 (RTN),并重建为x^=\(xq−z\)⋅Δ\\hat\{x\}=\(x\_\{q\}\-z\)\\cdot\\Delta\)。往返映射x↦xq↦x^x\\mapsto x\_\{q\}\\mapsto\\hat\{x\}会引入一个加性误差ε=x^−x\\epsilon=\\hat\{x\}-x,其边界为\|ε\|≤Δ/2\|\\epsilon\|\\leq\\Delta/2。在实践中,Δ\\Delta和zz的选择需覆盖被量化值的完整\[min,max\]\[\\min,\\max\]范围。

#### 量化粒度。

缩放步长和零点可以在不同粒度下共享。在逐张量量化中,整个张量共享一个\(Δ,z\)\(\\Delta,z\)对。在逐令牌量化中,每个令牌有自己的\(Δi,zi\)\(\\Delta\_\{i\},z\_\{i\}\)。组逐令牌量化进一步将每个令牌的dd个通道分成大小为gg的组,每组jj拥有独立的\(Δi,j,zi,j\)\(\\Delta\_\{i,j\},z\_\{i,j\}\)。共享\(Δ,z\)\(\\Delta,z\)的值组越小,量化误差越小,但整体内存占用越大。

#### Hadamard旋转。

Transformer模型中的键向量通常表现出通道级异常值,即少数通道的幅度远大于其余通道(Dettmers等人,2022 (https://arxiv.org/html/2605.26266#bib.bib18);Ashkboos等人,2024 (https://arxiv.org/html/2605.26266#bib.bib4))。这些异常值会增大量化步长Δ\\Delta,从而降低所有其他通道的精度。QuaRot(Ashkboos等人,2024 (https://arxiv.org/html/2605.26266#bib.bib4))通过将随机化Hadamard旋转H∈Rd×dH\\in\\mathbb\{R\}^\{d\\times d\}(满足H⊤H=IH^\{\\top\}H=I)应用于键和查询,将异常值能量分散到所有通道。得到的分布更加均匀,允许更低的量化误差。由于HH是正交的,注意力分数得以保留:\(Hq\)⊤\(Hk\)=q⊤k\(Hq\)^\{\\top\}\(Hk\)=q^\{\\top\}k。对于所有消融实验

相似文章