WorldKV：基于世界检索与压缩的高效世界记忆

Hugging Face Daily Papers 2026/05/21 00:00 论文

world-generation video-diffusion kv-cache memory-compression retrieval training-free persistent-world

摘要

WorldKV 是一个无需训练的框架，它检索并压缩键值缓存块，以在视频扩散世界生成中保持长期一致性，在匹配全记忆保真度的同时实现更高吞吐量。

自回归视频扩散模型已经实现了实时、动作条件的世界生成。然而，维持一个持久的世界——即重新访问之前见过的视角时能生成一致的内容——仍然是一个未解决的问题。全KV缓存注意力机制保持了这种一致性，但打破了实时约束：内存占用和注意力成本随展开长度线性增长。滑动窗口推理恢复了吞吐量，但丢弃了长期一致性。我们提出了WorldKV，一个无需训练的框架，包含两个组件：世界检索（World Retrieval）和世界压缩（World Compression）。世界检索将驱逐的KV缓存块存储到GPU/CPU内存中，并通过相机/动作对应选择性检索场景相关的块，将其插回原生注意力窗口而无需重新编码。世界压缩通过基于锚帧的键-键相似度剪枝每个块中的冗余令牌，将每个块的存储减半，从而在固定预算下容纳两倍以上的历史。在Matrix-Game-2.0和LingBot-World-Fast上，WorldKV在全KV内存保真度方面匹配或超越，吞吐量约为两倍，并且无需任何微调即可与经过内存训练的基线竞争。项目页面：https://cvlab-kaist.github.io/WorldKV/

查看原文

查看缓存全文

缓存时间: 2026/05/22 02:24

论文页面 - WorldKV：结合世界检索与压缩的高效世界记忆

来源：https://huggingface.co/papers/2605.22718

摘要

WorldKV 通过检索并压缩键值缓存块，使视频扩散模型能够实现持久的世界生成，在保持一致性的同时提升吞吐量。

自回归视频扩散模型（https://huggingface.co/papers?q=Autoregressive%20video%20diffusion%20models）已实现了实时、动作条件化的世界生成。然而，维持一个持久的世界——即重新回到之前看到的视角时仍能呈现一致内容——仍然是一个未解决的问题。FullKV 缓存注意力（https://huggingface.co/papers?q=KV-cache%20attention）能保持这种一致性，但打破了实时约束：内存占用和注意力成本随展开长度线性增长。滑动窗口推理（https://huggingface.co/papers?q=Sliding%20window%20inference）恢复了吞吐量，但丢弃了长期一致性。我们提出 WorldKV，一个无需训练的框架，包含两个组件：世界检索（World Retrieval）（https://huggingface.co/papers?q=World%20Retrieval）和世界压缩（World Compression）（https://huggingface.co/papers?q=World%20Compression）。世界检索将驱逐的 KV 缓存块存储在 GPU/CPU 内存中，并通过相机/动作对应选择性检索与场景相关的块，将其重新插入到原生注意力窗口（https://huggingface.co/papers?q=attention%20window）中，无需重新编码。世界压缩通过锚帧的键-键相似度（https://huggingface.co/papers?q=key-key%20similarity）修剪每个块内的冗余令牌，将每块存储量减半，从而在固定预算下容纳多一倍的历史记录。在 Matrix-Game-2.0 和 LingBot-World-Fast 上，WorldKV 在约 2 倍吞吐量下达到或超过 FullKV 内存保真度，并且无需任何微调即可与经过内存训练的基线相媲美。项目页面：https://cvlab-kaist.github.io/WorldKV/

查看 arXiv 页面（https://arxiv.org/abs/2605.22718）查看 PDF（https://arxiv.org/pdf/2605.22718）项目页面（https://cvlab-kaist.github.io/WorldKV/）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.22718）

在你的代理中获取这篇论文：

hf papers read 2605\.22718

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2605.22718 即可从此页面链接。

引用此论文的数据集0

没有数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.22718 即可从此页面链接。

引用此论文的 Spaces0

没有 Space 链接到此论文

在 Space README.md 中引用 arxiv.org/abs/2605.22718 即可从此页面链接。

包含此论文的收藏0

没有收藏包含此论文

添加这篇论文到收藏（https://huggingface.co/new-collection）即可从此页面链接。

相似文章

@GitHub_Daily: 做量化研究的朋友，每天面对海量的金融研报和前沿论文，靠人工筛选有价值内容，无疑像大海捞针。最近发现一个叫 QuantMind 的开源项目，专门做量化金融的智能知识提取与检索。能自动抓取论文、新闻和博客等内容，把非结构化的文档转化为可查…

X AI KOLs Timeline

QuantMind 是一个开源的量化金融智能知识提取与检索框架，能够自动抓取论文、新闻等非结构化内容，构建可查询的结构化知识库，并支持自然语言检索。

WorldKV：基于世界检索与压缩的高效世界记忆

论文页面 - WorldKV：结合世界检索与压缩的高效世界记忆

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏0

相似文章

开源 InfiniteKV：一种 KV 缓存，将旧 token 压缩为 104 字节的可搜索记录存储在内存或磁盘中，而非删除。Mistral-7B 从 token 76,747 处作答，超出其训练窗口 2.3 倍。附 Colab 演示

智能体是否需要与知识库分离的“大脑”？

学习什么该记住：面向代理记忆的认知启发的多因素价值模型

SkillCAT：对比性评估与拓扑感知的LLM智能体技能自我进化

提交意见反馈