@HaochengXiUCB: 新博客文章：视频与世界模型中的遗忘墙——长时域视频生成不仅仅受限于计算……

X AI KOLs Following 2026/06/10 00:30 论文

video-generation world-models memory-limitations kv-cache forgetting long-horizon diffusion-models

摘要

这篇博客文章介绍了长时域视频生成和世界模型中'Forgetting Wall'的概念，认为主要瓶颈是内存（KV缓存增长）而非计算，并探讨了压缩作为未来模型的关键方向。

New blog post: The Forgetting Wall in Video and World Models 长时域视频生成不仅仅受限于计算。它受限于模型能够记住自身过去多少内容。我撰文探讨了长视频为何会漂移，KV缓存为何会成为内存瓶颈，以及压缩为何是未来视频/世界模型的关键方向。 https://haochengxi.github.io/posts/forgetting-wall/…

查看原文

查看缓存全文

缓存时间: 2026/06/10 09:46

新博文：视频和世界模型中的遗忘之壁

长程视频生成不仅受限于算力，更受限于模型能负担的自身记忆量。

我写这篇文章探讨：为什么长视频会漂移，为什么 KV 缓存成为记忆瓶颈，以及为什么压缩是未来视频/世界模型的关键方向。

https://haochengxi.github.io/posts/forgetting-wall/…

视频和世界模型中的遗忘之壁

来源：https://haochengxi.github.io/posts/forgetting-wall/ ← Haocheng Xi (https://haochengxi.github.io/) 关于长程视频生成的一个视角

摘要

为了在长视频中保持一致性，模型必须记住自己的过去。在视频扩散模型中，这种记忆就是 KV 缓存，它会随着每一帧而增长。由于单个帧可能包含数千个 token，KV 缓存的膨胀速度远快于文本，而保存所有缓存很快就会导致 GPU 内存不足。然而，长视频生成或世界模型不能承受遗忘。当模型失去对所需历史记录的访问时，一致性开始崩溃：一个角色会慢慢漂移成另一个人，或者一个房间会随时间悄然重新布局。这些失败看起来像是视觉伪影，但实际上它们是记忆故障——模型不再能忠实访问自己的过去。我们称之为“遗忘之壁”。

最终限制长视频生成的，不仅是模型预测下一帧的能力，更是它负担得起保留和使用的历史信息量。在这篇博客中，我们将讨论什么是遗忘之壁，为什么它难以克服，它在长视频生成中实际上如何失败，以及可能的解决方案——从滑动窗口到压缩。最后，我们介绍我们尝试过的一个方法：QuantVideoGen (https://arxiv.org/abs/2602.02958) [1]。

长视频生成不是算力问题 (https://haochengxi.github.io/posts/forgetting-wall/#notcompute)
这里的“记忆”究竟是什么 (https://haochengxi.github.io/posts/forgetting-wall/#whatis)
为什么困难，以及失败的表现 (https://haochengxi.github.io/posts/forgetting-wall/#hard)
局部解答的图景 (https://haochengxi.github.io/posts/forgetting-wall/#answers)
为何这是关注焦点 (https://haochengxi.github.io/posts/forgetting-wall/#watch)

1 长视频生成不是算力问题

如果你问为什么我们还不能生成长且连贯的视频，最常见的答案是某种形式的“我们需要更多算力”——更大的模型、更长的训练、每秒更多帧的生成。这个答案不能说错了，但它指对了错误的墙。

曾几何时，视频生成的难点确实是单帧质量，而这很大程度上已经被解决，所以单个帧现在看起来很棒[2][3]。问题在于，一个片段可能在单帧质量上得分很高，但在世界一致性上却严重失败，而这两者实际上在很大程度上是不相关的。前沿已经转向了长度和交互性：生成分钟级别的片段，以及构建你可以在其中操控和移动的世界模型[4]。但是，当你推动长度时，遇到的失败并非模型算力耗尽，而是模型遗忘了。走出屏幕的角色回来时变了样。房间悄然重新布局。在世界模型中转动相机再转回来，世界已被重新创造。

这些不是质量缺陷，而是记忆缺陷。长程视频的遗忘之壁是模型记住自身过去的能力，而这结果证明是一个异常困难的约束。

2 这里的“记忆”究竟是什么

让我们具体化一下记忆对这些模型意味着什么。自回归视频模型逐帧生成[5]，每个新帧通过 Transformer 的注意力机制关注之前的内容。为此，它存储每个过去 token 的键和值（即 KV 缓存）。KV 缓存是模型对迄今为止视频的记忆。如果一个细节不在缓存中，模型就无法与其保持一致。

问题在于这个缓存如何扩展。它随着生成的 token 数量线性增长——而视频极耗 token。单帧价值数千个 token，所以一个“只有”几百帧的片段，其 KV 缓存相当于数百万 token 的文本上下文。这与 LLM 研究多年消耗的长上下文问题是同一回事，但视频更快到达这堵墙，且冲击更猛烈。而且并不是所有历史都扮演相同角色：附近的帧承载着精细的动作连续性，而远处的帧大多作为上下文存在，模型偶尔需要回忆——我们稍后会回到这种不对称性。

frame t=1

t = 1

frame t=2

t = 2

frame t=3

t = 3

frame t=T

t = T

图 1：每一帧价值数千个 token，缓存保留所有 token。 从第 1 帧到第 T 帧保持连贯意味着携带其间所有记忆——而这正是变得过于庞大而无法保留的东西。

3 为什么困难，以及失败的表现

这是遗忘之壁的核心张力。长期一致性需要长期记忆：如果一张脸离开画面一分钟后又出现，模型只有当其 KV 缓存仍持有那张脸一分钟前的样子时，才能保持它的一致性。但保留所有这些记忆（全精度）最终会溢出硬件。所以你卡在两个糟糕选项之间：

记住一切，然后内存耗尽。或者限制记忆，然后开始遗忘。

让这变得真正困难的是第二个问题的叠加：你事先不知道你需要哪些记忆。 五秒前的一个 token 可能无关紧要，也可能是模型记录桌子上物体如何摆放的唯一地方。任何丢弃“不重要”历史的方案都是在押注未来，而长程依赖正是这种押注最难做对的情况。很可能为了节省内存而丢弃的细节，恰恰是模型后来保持一致性所需要的。

抽象问题在你观看一个记忆管理不当的模型时就变得显而易见了。症状在不同系统中一致：

身份漂移。 面孔、服装和物体随时间缓慢变形。一辆车的内部在行程早期是一种内饰，一分钟后就变成了另一种，因为模型不再忠实记录原始状态。
场景和布局不一致。 房间重新布局；本来在左边的门出现在右边。早期建立的空间结构无法可靠保持。
世界模型遗忘症。 在交互式世界模型中，你转开视线再转回来，场景已被从头重写——典型的“转身后世界重置”失败。

这三者都是同一根本故障的不同角度：相关的过去在缓存中不可用或不准确。

t = 0:33

33 秒时的车内

t = 2:40

2 分 40 秒时的车内

图 2 显示身份和场景漂移。两个帧来自同一个连续视频。到 2:40 时，汽车整个内饰——仪表板、仪表盘、中控屏、氛围灯——都变了：模型已经失去了正在渲染的车辆的痕迹。

4 局部解答的图景

困难不仅在于记忆代价高昂，更在于节省记忆与保持一致性是相互矛盾的。没有人完全解决了这个问题，但值得看清整个地图，因为现有的提议实际上是面对第 3 节困境的不同方式。它们分为几个家族。

4.1 只看更少的过去

最直接的想法是存储更少的过去。滑动窗口和局部注意力只回看固定距离[5]：记忆是有界的，但模型对任何早于窗口的内容视而不见。注意力汇和流式方法在窗口旁边保留少量锚点 token，使生成在滑动时保持稳定——这是为了稳定性而非长程回忆的修复[6][7]。KV 驱逐和学习型稀疏路由尝试将每个查询路由到所需的历史片段[8]。它们都依赖同一个假设：丢弃的内容未来不会需要。困难在于这无法预先预测——在你丢弃一个 token 时，没有可靠方法判断某个更晚的帧是否会依赖它。因此，每一个固定的丢弃规则实际上都是在押注模型看不见的未来，而在长程依赖中，这个赌注常常输掉。

注意力模式：滑动窗口、注意力汇和 KV 驱逐。每行是一个生成步；每列是 KV 缓存中的过去 token。

4.2 将过去总结为固定状态

第二种家族改变了数学，使记忆根本不再增长。线性注意力和状态空间模型[9]将整个历史折叠成固定大小的状态，因此无论视频运行多长，代价都保持不变。Sana-Video[10] 是一个具体例子。它在视频生成器上使用线性注意力而非通常的二次注意力，因此不是缓存每个过去 token 的键和值，而是保持一个固定大小的状态，每到来一个新帧就更新它。记忆因此随着片段变长而保持平坦。这是一个优雅的记忆上限，但固定状态是有损摘要：长程一致性所依赖的精确细节，往往是有界摘要首先冲刷掉的东西。

线性注意力：在第 1、3、5 步，查询列乘以一个 1x1 的运行状态，再现因果注意力；状态从不增长。

4.3 保留一切，但存储成本更低

第三种家族拒绝丢弃任何东西，而是让缓存更便宜地持有：KV 缓存压缩和量化存储每一个 token，只是精度更低。我认为这对视频最有前途，原因具体：视频的 KV 缓存极其冗余。相邻帧看起来相似，帧内相邻区域也相似，因此缓存中真正的独立信息远小于其原始大小。问题在于这种冗余隐藏在混乱、不规则的分布之下，因此需要精心设计的压缩算法来暴露这种结构以保持高质量。

块级 KV 量化：1、3、5 块。保留完整因果历史；对角线（当前）块保持全精度，而较旧的块被量化，KV 缓存条随每个块增长。

你不能简单借用为文本构建的压缩器[11]。它们是为一维 token 流设计的，而非视频的时空结构——所以一个强大的 LLM KV 量化器可能会退化（图 4）。机会是真实的，但必须基于视频自身的特点来把握。

一次尝试：QuantVideoGen (QVG)[1]

QVG 是我们对第三家族的一次尝试：一种围绕视频结构而非从文本借用的 KV 缓存量化方法。它首先减去相邻 token 共享的内容（语义感知平滑），然后粗到细精炼剩余残差（渐进残差量化），这使得预训练模型能在 2 位 KV 缓存上运行——内存最多减少 7 倍，延迟开销低于 4%，质量基本不变。它无需训练且开源；详情见论文 (https://arxiv.org/abs/2602.02958) 和代码 (https://github.com/svg-project/Quant-VideoGen)。

键缓存的三种视图：原始（不规则，难以量化）、语义分组后（规则但仍难）、质心减法后（规则且易量化）。图 3. QVG 在消耗冗余之前先暴露冗余。 （左） 原始键缓存不规则——值在通道间大幅摆动，直接量化会降低质量。 （中） 语义分组使其规则，但仍然难量化。 （右） 减去每个分组的质心去除共享分量，留下一个均匀的小残差，可以在低位宽下干净量化——这正是 QVG 能在 2 位缓存上运行的原因。

未压缩内存

KIVI — 为文本构建

QVG（我们的）· 2 位

图 4. 相同目标，在 HY-WorldPlay 上的不同结果。 KIVI（为文本构建的量化器）退化；而 QVG 围绕视频的冗余设计，在 2 位缓存上保持了未压缩基线的质量。

4.4 其他方向

还有一些其他方向。一是缩小缓存，通过采用更激进的视频 VAE 将每帧编码为更少的潜 token。深度压缩自编码器如 DC-AE[12] 的压缩比大约是早期 VAE 的 4 倍，由于 KV 缓存与压缩比成反比，这 4 倍压缩可将缓存减至大约四分之一[13]。另一种是重新定位缓存，将完整的 KV 历史保持在丰富的 CPU/主机内存中，当注意力需要时再将每个片段流回 GPU。没有遗忘或近似，但在每一步通过 PCIe 总线移动缓存很慢，因此对于实时交互生成，其延迟通常过高。

5 为何这是关注焦点

随着视频模型成为世界模型（交互式、长寿命、且智能体可以在其中行动），记忆成为定义性约束，对世界模型而言，其角色相当于上下文长度对 LLM 的作用。模型能负担记住多少过去，为其世界能有多长、多连贯、多可控设定了硬性上限。

答案可能不是一个单一技巧。最近的帧需要高分辨率局部记忆。遥远的历史可能需要压缩、总结或只在必要时检索。空间结构最终可能存在于更明确的世界表示中。换句话说，未来的视频模型很可能需要一个记忆层次结构，而不仅仅是一个更长的缓存。

但在那之前，有一件事似乎很清楚：遗忘的代价太高了。如果长视频要保持一致，模型需要一种方式，能保留远比今天系统负担得起的更多过去。

参考文献

Xi, Haocheng, et al. “Quant VideoGen: Auto-Regressive Long Video Generation via 2-Bit KV-Cache Quantization.” arXiv preprint, 2026. arXiv:2602.02958 (https://arxiv.org/abs/2602.02958).
Wan Team. “Wan: Open and Advanced Large-Scale Video Generative Models.” arXiv preprint, 2025. arXiv:2503.20314 (https://arxiv.org/abs/2503.20314).
Seedance Team. “Seedance 2.0: Advancing Video Generation for World Complexity.” arXiv preprint, 2026. arXiv:2604.14148 (https://arxiv.org/abs/2604.14148).
Bruce, Jake, et al. “Genie: Generative Interactive Environments.” ICML, 2024. arXiv:2402.153

相似文章

@yukangchen_: 我们发布了一篇博客：“Why Video Gen Is an Infra Problem”。 https://research.nvidia.com/labs/eai/blogs/video-gen-is-an-i…

X AI KOLs Following

NVIDIA研究博客认为，长视频生成正在成为一个基础设施问题，需要在模型、内存、KV缓存、VAE解码、调度和部署基础设施上进行全栈协同设计，并以LongLive 2.0作为案例研究。