Forcing-KV:面向高效自回归视频扩散模型的混合KV缓存压缩策略
摘要
本文介绍了Forcing-KV,这是一种针对自回归视频扩散模型的混合KV缓存压缩策略,它将注意力头分为静态和动态两类,在1080P分辨率下实现了高达2.82倍的加速,同时保持了输出质量。
查看缓存全文
缓存时间: 2026/05/15 08:24
论文页面 - Forcing-KV:用于高效自回归视频扩散模型的混合KV缓存压缩
来源:https://huggingface.co/papers/2605.09681
摘要
自回归视频扩散模型面临可扩展性问题,主要源于高注意力复杂度和冗余键值缓存带来的内存开销。本文通过一种混合压缩策略来解决这些问题,该策略将注意力头分为静态和动态两类以实现优化缓存。
自回归(AR)视频扩散模型采用流式生成框架(https://huggingface.co/papers?q=streaming%20generation%20framework),能够实现长时域视频生成与实时响应,例如自强制训练范式(https://huggingface.co/papers?q=Self%20Forcing%20training%20paradigm)所展示的那样。然而,现有的AR视频扩散模型仍受限于显著的注意力复杂度(https://huggingface.co/papers?q=attention%20complexity)和严重的内存开销(https://huggingface.co/papers?q=memory%20overhead),这源于历史帧中的冗余键值(KV)缓存,从而限制了可扩展性。本文通过将KV缓存压缩(https://huggingface.co/papers?q=KV%20cache%20compression)引入自回归视频扩散来应对这一挑战。我们观察到,主流AR扩散模型中的注意力头(https://huggingface.co/papers?q=attention%20heads)展现出明显不同的注意力模式与功能角色,且这些模式在样本和去噪步骤中保持稳定。基于我们对头部功能专业化的实证研究,我们将注意力头(https://huggingface.co/papers?q=attention%20heads)分为两类:静态头(https://huggingface.co/papers?q=static%20heads),专注于自回归块间的转换和帧内保真度;动态头(https://huggingface.co/papers?q=dynamic%20heads),负责帧间运动与一致性。我们随后提出Forcing-KV,一种混合KV缓存压缩(https://huggingface.co/papers?q=KV%20cache%20compression)策略,对静态头(https://huggingface.co/papers?q=static%20heads)执行结构化静态剪枝(https://huggingface.co/papers?q=structured%20static%20pruning),对动态头(https://huggingface.co/papers?q=dynamic%20heads)则基于段级相似性(https://huggingface.co/papers?q=segment-wise%20similarity)进行动态剪枝(https://huggingface.co/papers?q=dynamic%20pruning)。在保持输出质量的同时,我们的方法在单个NVIDIA H200 GPU上实现了超过29帧每秒的生成速度,并减少了30%的缓存内存,在480P分辨率下为LongLive和Self Forcing分别带来高达1.35倍和1.50倍的加速,并在1080P分辨率下进一步扩展到2.82倍的加速。代码和演示视频可从https://zju-jiyicheng.github.io/Forcing-KV-Page/获取。
查看arXiv页面(https://arxiv.org/abs/2605.09681)查看PDF(https://arxiv.org/pdf/2605.09681)项目页面(https://zju-jiyicheng.github.io/Forcing-KV-Page/)GitHub66(https://github.com/zju-jiyicheng/Forcing-KV)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.09681)
在您的智能体中获取此论文:
hf papers read 2605.09681
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接此论文
在模型README.md中引用arxiv.org/abs/2605.09681以从此页面链接。
引用此论文的数据集0
没有数据集链接此论文
在数据集README.md中引用arxiv.org/abs/2605.09681以从此页面链接。
引用此论文的Spaces0
没有Space链接此论文
在Space README.md中引用arxiv.org/abs/2605.09681以从此页面链接。
包含此论文的收藏集0
没有收藏集包含此论文
将此论文添加到收藏集(https://huggingface.co/new-collection)以从此页面链接。
相似文章
VideoMLA:用于分钟级自回归视频扩散的低秩潜变量KV缓存
VideoMLA 用共享的低秩潜变量和解耦的 3D-RoPE 位置键替换了视频扩散模型中每个头的 KV 缓存,在 B200 上将每个 token 的 KV 内存降低了 92.7%,吞吐量提升了 1.23 倍,同时在 VBench 基准测试中保持了质量。
量化键偷走注意力:视频扩散中KV缓存压缩的偏差校正
本文指出,在分块自回归视频扩散的KV缓存压缩中,对键进行量化会导致注意力权重出现偏差,并提出了一种每注意力分数校正方法,该方法以可忽略的开销消除偏差,在INT2量化下恢复接近BF16的视频质量。
FadeMem: 距离感知的记忆整合用于自回归视频扩散
FadeMem 引入了一种距离感知的键值记忆整合机制,将历史视频数据组织成时间层次结构,在固定缓存约束下改进长视频生成。
ReST-KV:基于逐层输出重构与时空平滑的鲁棒 KV Cache 驱逐方法
本文介绍了 ReST-KV,一种用于大型语言模型的新型鲁棒 KV Cache 驱逐方法。该方法利用逐层输出重构与时空平滑技术来提升效率,显著降低了解码延迟,并在 LongBench 和 RULER 等长上下文基准测试中超越了现有的最先进基线模型。
HARD-KV: 解码时 KV 压缩的头部自适应正则化
Hard-KV 引入了级联缓存层次结构和 Logits 校准机制,以解决头部自适应 KV 缓存压缩中的静态-动态不匹配问题,在长上下文 LLM 推理中实现了高达 2 倍的吞吐量提升。