@HaochengXiUCB: 新博客文章:视频与世界模型中的遗忘墙——长时域视频生成不仅仅受限于计算……
摘要
这篇博客文章介绍了长时域视频生成和世界模型中'Forgetting Wall'的概念,认为主要瓶颈是内存(KV缓存增长)而非计算,并探讨了压缩作为未来模型的关键方向。
查看缓存全文
缓存时间: 2026/06/10 09:46
新博文:视频和世界模型中的遗忘之壁
长程视频生成不仅受限于算力,更受限于模型能负担的自身记忆量。
我写这篇文章探讨:为什么长视频会漂移,为什么 KV 缓存成为记忆瓶颈,以及为什么压缩是未来视频/世界模型的关键方向。
https://haochengxi.github.io/posts/forgetting-wall/…
视频和世界模型中的遗忘之壁
来源:https://haochengxi.github.io/posts/forgetting-wall/ ← Haocheng Xi (https://haochengxi.github.io/) 关于长程视频生成的一个视角
摘要
为了在长视频中保持一致性,模型必须记住自己的过去。在视频扩散模型中,这种记忆就是 KV 缓存,它会随着每一帧而增长。由于单个帧可能包含数千个 token,KV 缓存的膨胀速度远快于文本,而保存所有缓存很快就会导致 GPU 内存不足。然而,长视频生成或世界模型不能承受遗忘。当模型失去对所需历史记录的访问时,一致性开始崩溃:一个角色会慢慢漂移成另一个人,或者一个房间会随时间悄然重新布局。这些失败看起来像是视觉伪影,但实际上它们是记忆故障——模型不再能忠实访问自己的过去。我们称之为“遗忘之壁”。
最终限制长视频生成的,不仅是模型预测下一帧的能力,更是它负担得起保留和使用的历史信息量。在这篇博客中,我们将讨论什么是遗忘之壁,为什么它难以克服,它在长视频生成中实际上如何失败,以及可能的解决方案——从滑动窗口到压缩。最后,我们介绍我们尝试过的一个方法:QuantVideoGen (https://arxiv.org/abs/2602.02958) [1]。
目录
- 长视频生成不是算力问题 (https://haochengxi.github.io/posts/forgetting-wall/#notcompute)
- 这里的“记忆”究竟是什么 (https://haochengxi.github.io/posts/forgetting-wall/#whatis)
- 为什么困难,以及失败的表现 (https://haochengxi.github.io/posts/forgetting-wall/#hard)
- 局部解答的图景 (https://haochengxi.github.io/posts/forgetting-wall/#answers)
- 为何这是关注焦点 (https://haochengxi.github.io/posts/forgetting-wall/#watch)
1 长视频生成不是算力问题
如果你问为什么我们还不能生成长且连贯的视频,最常见的答案是某种形式的“我们需要更多算力”——更大的模型、更长的训练、每秒更多帧的生成。这个答案不能说错了,但它指对了错误的墙。
曾几何时,视频生成的难点确实是单帧质量,而这很大程度上已经被解决,所以单个帧现在看起来很棒[2][3]。问题在于,一个片段可能在单帧质量上得分很高,但在世界一致性上却严重失败,而这两者实际上在很大程度上是不相关的。前沿已经转向了长度和交互性:生成分钟级别的片段,以及构建你可以在其中操控和移动的世界模型[4]。但是,当你推动长度时,遇到的失败并非模型算力耗尽,而是模型遗忘了。走出屏幕的角色回来时变了样。房间悄然重新布局。在世界模型中转动相机再转回来,世界已被重新创造。
这些不是质量缺陷,而是记忆缺陷。长程视频的遗忘之壁是模型记住自身过去的能力,而这结果证明是一个异常困难的约束。
2 这里的“记忆”究竟是什么
让我们具体化一下记忆对这些模型意味着什么。自回归视频模型逐帧生成[5],每个新帧通过 Transformer 的注意力机制关注之前的内容。为此,它存储每个过去 token 的键和值(即 KV 缓存)。KV 缓存是模型对迄今为止视频的记忆。如果一个细节不在缓存中,模型就无法与其保持一致。
问题在于这个缓存如何扩展。它随着生成的 token 数量线性增长——而视频极耗 token。单帧价值数千个 token,所以一个“只有”几百帧的片段,其 KV 缓存相当于数百万 token 的文本上下文。这与 LLM 研究多年消耗的长上下文问题是同一回事,但视频更快到达这堵墙,且冲击更猛烈。而且并不是所有历史都扮演相同角色:附近的帧承载着精细的动作连续性,而远处的帧大多作为上下文存在,模型偶尔需要回忆——我们稍后会回到这种不对称性。
frame t=1
t = 1
frame t=2
t = 2
frame t=3
t = 3
frame t=T
t = T
图 1:每一帧价值数千个 token,缓存保留所有 token。 从第 1 帧到第 T 帧保持连贯意味着携带其间所有记忆——而这正是变得过于庞大而无法保留的东西。
3 为什么困难,以及失败的表现
这是遗忘之壁的核心张力。长期一致性需要长期记忆:如果一张脸离开画面一分钟后又出现,模型只有当其 KV 缓存仍持有那张脸一分钟前的样子时,才能保持它的一致性。但保留所有这些记忆(全精度)最终会溢出硬件。所以你卡在两个糟糕选项之间:
记住一切,然后内存耗尽。或者限制记忆,然后开始遗忘。
让这变得真正困难的是第二个问题的叠加:你事先不知道你需要哪些记忆。 五秒前的一个 token 可能无关紧要,也可能是模型记录桌子上物体如何摆放的唯一地方。任何丢弃“不重要”历史的方案都是在押注未来,而长程依赖正是这种押注最难做对的情况。很可能为了节省内存而丢弃的细节,恰恰是模型后来保持一致性所需要的。
抽象问题在你观看一个记忆管理不当的模型时就变得显而易见了。症状在不同系统中一致:
- 身份漂移。 面孔、服装和物体随时间缓慢变形。一辆车的内部在行程早期是一种内饰,一分钟后就变成了另一种,因为模型不再忠实记录原始状态。
- 场景和布局不一致。 房间重新布局;本来在左边的门出现在右边。早期建立的空间结构无法可靠保持。
- 世界模型遗忘症。 在交互式世界模型中,你转开视线再转回来,场景已被从头重写——典型的“转身后世界重置”失败。
这三者都是同一根本故障的不同角度:相关的过去在缓存中不可用或不准确。
t = 0:33
33 秒时的车内
t = 2:40
2 分 40 秒时的车内
图 2 显示身份和场景漂移。两个帧来自同一个连续视频。到 2:40 时,汽车整个内饰——仪表板、仪表盘、中控屏、氛围灯——都变了:模型已经失去了正在渲染的车辆的痕迹。
4 局部解答的图景
困难不仅在于记忆代价高昂,更在于节省记忆与保持一致性是相互矛盾的。没有人完全解决了这个问题,但值得看清整个地图,因为现有的提议实际上是面对第 3 节困境的不同方式。它们分为几个家族。
4.1 只看更少的过去
最直接的想法是存储更少的过去。滑动窗口和局部注意力只回看固定距离[5]:记忆是有界的,但模型对任何早于窗口的内容视而不见。注意力汇和流式方法在窗口旁边保留少量锚点 token,使生成在滑动时保持稳定——这是为了稳定性而非长程回忆的修复[6][7]。KV 驱逐和学习型稀疏路由尝试将每个查询路由到所需的历史片段[8]。它们都依赖同一个假设:丢弃的内容未来不会需要。困难在于这无法预先预测——在你丢弃一个 token 时,没有可靠方法判断某个更晚的帧是否会依赖它。因此,每一个固定的丢弃规则实际上都是在押注模型看不见的未来,而在长程依赖中,这个赌注常常输掉。
注意力模式:滑动窗口、注意力汇和 KV 驱逐。每行是一个生成步;每列是 KV 缓存中的过去 token。
4.2 将过去总结为固定状态
第二种家族改变了数学,使记忆根本不再增长。线性注意力和状态空间模型[9]将整个历史折叠成固定大小的状态,因此无论视频运行多长,代价都保持不变。Sana-Video[10] 是一个具体例子。它在视频生成器上使用线性注意力而非通常的二次注意力,因此不是缓存每个过去 token 的键和值,而是保持一个固定大小的状态,每到来一个新帧就更新它。记忆因此随着片段变长而保持平坦。这是一个优雅的记忆上限,但固定状态是有损摘要:长程一致性所依赖的精确细节,往往是有界摘要首先冲刷掉的东西。
线性注意力:在第 1、3、5 步,查询列乘以一个 1x1 的运行状态,再现因果注意力;状态从不增长。
4.3 保留一切,但存储成本更低
第三种家族拒绝丢弃任何东西,而是让缓存更便宜地持有:KV 缓存压缩和量化存储每一个 token,只是精度更低。我认为这对视频最有前途,原因具体:视频的 KV 缓存极其冗余。相邻帧看起来相似,帧内相邻区域也相似,因此缓存中真正的独立信息远小于其原始大小。问题在于这种冗余隐藏在混乱、不规则的分布之下,因此需要精心设计的压缩算法来暴露这种结构以保持高质量。
块级 KV 量化:1、3、5 块。保留完整因果历史;对角线(当前)块保持全精度,而较旧的块被量化,KV 缓存条随每个块增长。
你不能简单借用为文本构建的压缩器[11]。它们是为一维 token 流设计的,而非视频的时空结构——所以一个强大的 LLM KV 量化器可能会退化(图 4)。机会是真实的,但必须基于视频自身的特点来把握。
一次尝试:QuantVideoGen (QVG)[1]
QVG 是我们对第三家族的一次尝试:一种围绕视频结构而非从文本借用的 KV 缓存量化方法。它首先减去相邻 token 共享的内容(语义感知平滑),然后粗到细精炼剩余残差(渐进残差量化),这使得预训练模型能在 2 位 KV 缓存上运行——内存最多减少 7 倍,延迟开销低于 4%,质量基本不变。它无需训练且开源;详情见论文 (https://arxiv.org/abs/2602.02958) 和代码 (https://github.com/svg-project/Quant-VideoGen)。
键缓存的三种视图:原始(不规则,难以量化)、语义分组后(规则但仍难)、质心减法后(规则且易量化)。图 3. QVG 在消耗冗余之前先暴露冗余。 (左) 原始键缓存不规则——值在通道间大幅摆动,直接量化会降低质量。 (中) 语义分组使其规则,但仍然难量化。 (右) 减去每个分组的质心去除共享分量,留下一个均匀的小残差,可以在低位宽下干净量化——这正是 QVG 能在 2 位缓存上运行的原因。
未压缩内存
KIVI — 为文本构建
QVG(我们的)· 2 位
图 4. 相同目标,在 HY-WorldPlay 上的不同结果。 KIVI(为文本构建的量化器)退化;而 QVG 围绕视频的冗余设计,在 2 位缓存上保持了未压缩基线的质量。
4.4 其他方向
还有一些其他方向。一是缩小缓存,通过采用更激进的视频 VAE 将每帧编码为更少的潜 token。深度压缩自编码器如 DC-AE[12] 的压缩比大约是早期 VAE 的 4 倍,由于 KV 缓存与压缩比成反比,这 4 倍压缩可将缓存减至大约四分之一[13]。另一种是重新定位缓存,将完整的 KV 历史保持在丰富的 CPU/主机内存中,当注意力需要时再将每个片段流回 GPU。没有遗忘或近似,但在每一步通过 PCIe 总线移动缓存很慢,因此对于实时交互生成,其延迟通常过高。
5 为何这是关注焦点
随着视频模型成为世界模型(交互式、长寿命、且智能体可以在其中行动),记忆成为定义性约束,对世界模型而言,其角色相当于上下文长度对 LLM 的作用。模型能负担记住多少过去,为其世界能有多长、多连贯、多可控设定了硬性上限。
答案可能不是一个单一技巧。最近的帧需要高分辨率局部记忆。遥远的历史可能需要压缩、总结或只在必要时检索。空间结构最终可能存在于更明确的世界表示中。换句话说,未来的视频模型很可能需要一个记忆层次结构,而不仅仅是一个更长的缓存。
但在那之前,有一件事似乎很清楚:遗忘的代价太高了。如果长视频要保持一致,模型需要一种方式,能保留远比今天系统负担得起的更多过去。
参考文献
- Xi, Haocheng, et al. “Quant VideoGen: Auto-Regressive Long Video Generation via 2-Bit KV-Cache Quantization.” arXiv preprint, 2026. arXiv:2602.02958 (https://arxiv.org/abs/2602.02958).
- Wan Team. “Wan: Open and Advanced Large-Scale Video Generative Models.” arXiv preprint, 2025. arXiv:2503.20314 (https://arxiv.org/abs/2503.20314).
- Seedance Team. “Seedance 2.0: Advancing Video Generation for World Complexity.” arXiv preprint, 2026. arXiv:2604.14148 (https://arxiv.org/abs/2604.14148).
- Bruce, Jake, et al. “Genie: Generative Interactive Environments.” ICML, 2024. arXiv:2402.153
相似文章
@yukangchen_: 我们发布了一篇博客:“Why Video Gen Is an Infra Problem”。 https://research.nvidia.com/labs/eai/blogs/video-gen-is-an-i…
NVIDIA研究博客认为,长视频生成正在成为一个基础设施问题,需要在模型、内存、KV缓存、VAE解码、调度和部署基础设施上进行全栈协同设计,并以LongLive 2.0作为案例研究。
用于视频世界模型的潜在空间记忆
本文介绍了用于视频世界模型的潜在空间记忆,将3D场景信息直接存储在扩散潜在空间中,以避免昂贵的像素空间重建。所提出的Mirage框架实现了高达10.57倍的生成加速和55倍的内存缩减,同时在WorldScore和RealEstate10K上取得了最先进的性能。
MBench:面向视频世界模型记忆能力的综合基准
本文介绍了MBench,一个用于评估视频世界模型在长时间跨度下对实体、环境和因果一致性记忆能力的基准。
Echo-Forcing: 一种用于交互式长视频生成的场景记忆框架
Echo-Forcing 提出了一种用于交互式长视频生成的场景记忆框架,利用分层时间记忆、场景召回帧和差异感知记忆衰减来处理提示切换和长期回忆。该方法无需训练,在 VBench-Long 上取得了强劲的性能。
DecMem:面向分钟级一致世界生成的解耦记忆方法
DecMem 提出了一种解耦记忆架构,结合稀疏全局记忆和锚定局部记忆,实现了分钟级一致视频生成,性能优于现有最优方法。