Forcing-KV:面向高效自回归视频扩散模型的混合KV缓存压缩策略

Hugging Face Daily Papers 论文

摘要

本文介绍了Forcing-KV,这是一种针对自回归视频扩散模型的混合KV缓存压缩策略,它将注意力头分为静态和动态两类,在1080P分辨率下实现了高达2.82倍的加速,同时保持了输出质量。

自回归(AR)视频扩散模型采用流式生成框架,能够实现长程视频生成并具备实时响应能力,Self Forcing训练范式就是其中的一个例子。然而,现有的AR视频扩散模型仍然面临显著的注意力复杂度和严重的内存开销问题,这是由于历史帧中存在冗余的键值(KV)缓存,这限制了模型的可扩展性。在本文中,我们通过将KV缓存压缩引入自回归视频扩散来应对这一挑战。我们观察到,主流AR扩散模型中的注意力头表现出明显不同的注意力模式和功能角色,这些模式和角色在样本和去噪步骤中保持稳定。基于我们对头部功能特化的实证研究,我们将注意力头分为两类:静态头,专注于自回归块之间的转换以及帧内保真度;动态头,负责帧间运动与一致性。然后我们提出了Forcing-KV,这是一种混合KV缓存压缩策略,它对静态头执行结构化静态剪枝,对动态头执行基于段间相似性的动态剪枝。在保持输出质量的同时,我们的方法在单个NVIDIA H200 GPU上实现了每秒超过29帧的生成速度,并减少了30%的缓存内存,在480P分辨率下,在LongLive和Self Forcing上分别实现了高达1.35倍和1.50倍的加速,在1080P分辨率下进一步扩展到2.82倍加速。代码和演示视频可在 https://zju-jiyicheng.github.io/Forcing-KV-Page 获取。
查看原文
查看缓存全文

缓存时间: 2026/05/15 08:24

论文页面 - Forcing-KV:用于高效自回归视频扩散模型的混合KV缓存压缩

来源:https://huggingface.co/papers/2605.09681

摘要

自回归视频扩散模型面临可扩展性问题,主要源于高注意力复杂度和冗余键值缓存带来的内存开销。本文通过一种混合压缩策略来解决这些问题,该策略将注意力头分为静态和动态两类以实现优化缓存。

自回归(AR)视频扩散模型采用流式生成框架(https://huggingface.co/papers?q=streaming%20generation%20framework),能够实现长时域视频生成与实时响应,例如自强制训练范式(https://huggingface.co/papers?q=Self%20Forcing%20training%20paradigm)所展示的那样。然而,现有的AR视频扩散模型仍受限于显著的注意力复杂度(https://huggingface.co/papers?q=attention%20complexity)和严重的内存开销(https://huggingface.co/papers?q=memory%20overhead),这源于历史帧中的冗余键值(KV)缓存,从而限制了可扩展性。本文通过将KV缓存压缩(https://huggingface.co/papers?q=KV%20cache%20compression)引入自回归视频扩散来应对这一挑战。我们观察到,主流AR扩散模型中的注意力头(https://huggingface.co/papers?q=attention%20heads)展现出明显不同的注意力模式与功能角色,且这些模式在样本和去噪步骤中保持稳定。基于我们对头部功能专业化的实证研究,我们将注意力头(https://huggingface.co/papers?q=attention%20heads)分为两类:静态头(https://huggingface.co/papers?q=static%20heads),专注于自回归块间的转换和帧内保真度;动态头(https://huggingface.co/papers?q=dynamic%20heads),负责帧间运动与一致性。我们随后提出Forcing-KV,一种混合KV缓存压缩(https://huggingface.co/papers?q=KV%20cache%20compression)策略,对静态头(https://huggingface.co/papers?q=static%20heads)执行结构化静态剪枝(https://huggingface.co/papers?q=structured%20static%20pruning),对动态头(https://huggingface.co/papers?q=dynamic%20heads)则基于段级相似性(https://huggingface.co/papers?q=segment-wise%20similarity)进行动态剪枝(https://huggingface.co/papers?q=dynamic%20pruning)。在保持输出质量的同时,我们的方法在单个NVIDIA H200 GPU上实现了超过29帧每秒的生成速度,并减少了30%的缓存内存,在480P分辨率下为LongLive和Self Forcing分别带来高达1.35倍和1.50倍的加速,并在1080P分辨率下进一步扩展到2.82倍的加速。代码和演示视频可从https://zju-jiyicheng.github.io/Forcing-KV-Page/获取。

查看arXiv页面(https://arxiv.org/abs/2605.09681)查看PDF(https://arxiv.org/pdf/2605.09681)项目页面(https://zju-jiyicheng.github.io/Forcing-KV-Page/)GitHub66(https://github.com/zju-jiyicheng/Forcing-KV)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.09681)

在您的智能体中获取此论文:

hf papers read 2605.09681

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型README.md中引用arxiv.org/abs/2605.09681以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集README.md中引用arxiv.org/abs/2605.09681以从此页面链接。

引用此论文的Spaces0

没有Space链接此论文

在Space README.md中引用arxiv.org/abs/2605.09681以从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集(https://huggingface.co/new-collection)以从此页面链接。

相似文章

量化键偷走注意力:视频扩散中KV缓存压缩的偏差校正

arXiv cs.LG

本文指出,在分块自回归视频扩散的KV缓存压缩中,对键进行量化会导致注意力权重出现偏差,并提出了一种每注意力分数校正方法,该方法以可忽略的开销消除偏差,在INT2量化下恢复接近BF16的视频质量。

HARD-KV: 解码时 KV 压缩的头部自适应正则化

arXiv cs.LG

Hard-KV 引入了级联缓存层次结构和 Logits 校准机制,以解决头部自适应 KV 缓存压缩中的静态-动态不匹配问题,在长上下文 LLM 推理中实现了高达 2 倍的吞吐量提升。