Forcing-KV：面向高效自回归视频扩散模型的混合KV缓存压缩策略

Hugging Face Daily Papers 2026/05/10 00:00 论文

摘要

本文介绍了Forcing-KV，这是一种针对自回归视频扩散模型的混合KV缓存压缩策略，它将注意力头分为静态和动态两类，在1080P分辨率下实现了高达2.82倍的加速，同时保持了输出质量。

自回归（AR）视频扩散模型采用流式生成框架，能够实现长程视频生成并具备实时响应能力，Self Forcing训练范式就是其中的一个例子。然而，现有的AR视频扩散模型仍然面临显著的注意力复杂度和严重的内存开销问题，这是由于历史帧中存在冗余的键值（KV）缓存，这限制了模型的可扩展性。在本文中，我们通过将KV缓存压缩引入自回归视频扩散来应对这一挑战。我们观察到，主流AR扩散模型中的注意力头表现出明显不同的注意力模式和功能角色，这些模式和角色在样本和去噪步骤中保持稳定。基于我们对头部功能特化的实证研究，我们将注意力头分为两类：静态头，专注于自回归块之间的转换以及帧内保真度；动态头，负责帧间运动与一致性。然后我们提出了Forcing-KV，这是一种混合KV缓存压缩策略，它对静态头执行结构化静态剪枝，对动态头执行基于段间相似性的动态剪枝。在保持输出质量的同时，我们的方法在单个NVIDIA H200 GPU上实现了每秒超过29帧的生成速度，并减少了30%的缓存内存，在480P分辨率下，在LongLive和Self Forcing上分别实现了高达1.35倍和1.50倍的加速，在1080P分辨率下进一步扩展到2.82倍加速。代码和演示视频可在 https://zju-jiyicheng.github.io/Forcing-KV-Page 获取。

查看原文

查看缓存全文

缓存时间: 2026/05/15 08:24

论文页面 - Forcing-KV：用于高效自回归视频扩散模型的混合KV缓存压缩

来源：https://huggingface.co/papers/2605.09681

摘要

自回归视频扩散模型面临可扩展性问题，主要源于高注意力复杂度和冗余键值缓存带来的内存开销。本文通过一种混合压缩策略来解决这些问题，该策略将注意力头分为静态和动态两类以实现优化缓存。

自回归（AR）视频扩散模型采用流式生成框架（https://huggingface.co/papers?q=streaming%20generation%20framework），能够实现长时域视频生成与实时响应，例如自强制训练范式（https://huggingface.co/papers?q=Self%20Forcing%20training%20paradigm）所展示的那样。然而，现有的AR视频扩散模型仍受限于显著的注意力复杂度（https://huggingface.co/papers?q=attention%20complexity）和严重的内存开销（https://huggingface.co/papers?q=memory%20overhead），这源于历史帧中的冗余键值（KV）缓存，从而限制了可扩展性。本文通过将KV缓存压缩（https://huggingface.co/papers?q=KV%20cache%20compression）引入自回归视频扩散来应对这一挑战。我们观察到，主流AR扩散模型中的注意力头（https://huggingface.co/papers?q=attention%20heads）展现出明显不同的注意力模式与功能角色，且这些模式在样本和去噪步骤中保持稳定。基于我们对头部功能专业化的实证研究，我们将注意力头（https://huggingface.co/papers?q=attention%20heads）分为两类：静态头（https://huggingface.co/papers?q=static%20heads），专注于自回归块间的转换和帧内保真度；动态头（https://huggingface.co/papers?q=dynamic%20heads），负责帧间运动与一致性。我们随后提出Forcing-KV，一种混合KV缓存压缩（https://huggingface.co/papers?q=KV%20cache%20compression）策略，对静态头（https://huggingface.co/papers?q=static%20heads）执行结构化静态剪枝（https://huggingface.co/papers?q=structured%20static%20pruning），对动态头（https://huggingface.co/papers?q=dynamic%20heads）则基于段级相似性（https://huggingface.co/papers?q=segment-wise%20similarity）进行动态剪枝（https://huggingface.co/papers?q=dynamic%20pruning）。在保持输出质量的同时，我们的方法在单个NVIDIA H200 GPU上实现了超过29帧每秒的生成速度，并减少了30%的缓存内存，在480P分辨率下为LongLive和Self Forcing分别带来高达1.35倍和1.50倍的加速，并在1080P分辨率下进一步扩展到2.82倍的加速。代码和演示视频可从https://zju-jiyicheng.github.io/Forcing-KV-Page/获取。

查看arXiv页面（https://arxiv.org/abs/2605.09681）查看PDF（https://arxiv.org/pdf/2605.09681）项目页面（https://zju-jiyicheng.github.io/Forcing-KV-Page/）GitHub66（https://github.com/zju-jiyicheng/Forcing-KV）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.09681）

在您的智能体中获取此论文：

hf papers read 2605.09681

没有最新的CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型README.md中引用arxiv.org/abs/2605.09681以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集README.md中引用arxiv.org/abs/2605.09681以从此页面链接。

引用此论文的Spaces0

没有Space链接此论文

在Space README.md中引用arxiv.org/abs/2605.09681以从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集（https://huggingface.co/new-collection）以从此页面链接。

Forcing-KV：面向高效自回归视频扩散模型的混合KV缓存压缩策略

论文页面 - Forcing-KV：用于高效自回归视频扩散模型的混合KV缓存压缩

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Spaces0

包含此论文的收藏集0

相似文章

VideoMLA：用于分钟级自回归视频扩散的低秩潜变量KV缓存

量化键偷走注意力：视频扩散中KV缓存压缩的偏差校正

FadeMem: 距离感知的记忆整合用于自回归视频扩散

ReST-KV：基于逐层输出重构与时空平滑的鲁棒 KV Cache 驱逐方法

HARD-KV: 解码时 KV 压缩的头部自适应正则化

提交意见反馈