WorldKV:基于世界检索与压缩的高效世界记忆

Hugging Face Daily Papers 论文

摘要

WorldKV 是一个无需训练的框架,它检索并压缩键值缓存块,以在视频扩散世界生成中保持长期一致性,在匹配全记忆保真度的同时实现更高吞吐量。

自回归视频扩散模型已经实现了实时、动作条件的世界生成。然而,维持一个持久的世界——即重新访问之前见过的视角时能生成一致的内容——仍然是一个未解决的问题。全KV缓存注意力机制保持了这种一致性,但打破了实时约束:内存占用和注意力成本随展开长度线性增长。滑动窗口推理恢复了吞吐量,但丢弃了长期一致性。我们提出了WorldKV,一个无需训练的框架,包含两个组件:世界检索(World Retrieval)和世界压缩(World Compression)。世界检索将驱逐的KV缓存块存储到GPU/CPU内存中,并通过相机/动作对应选择性检索场景相关的块,将其插回原生注意力窗口而无需重新编码。世界压缩通过基于锚帧的键-键相似度剪枝每个块中的冗余令牌,将每个块的存储减半,从而在固定预算下容纳两倍以上的历史。在Matrix-Game-2.0和LingBot-World-Fast上,WorldKV在全KV内存保真度方面匹配或超越,吞吐量约为两倍,并且无需任何微调即可与经过内存训练的基线竞争。项目页面:https://cvlab-kaist.github.io/WorldKV/
查看原文
查看缓存全文

缓存时间: 2026/05/22 02:24

论文页面 - WorldKV:结合世界检索与压缩的高效世界记忆

来源:https://huggingface.co/papers/2605.22718

摘要

WorldKV 通过检索并压缩键值缓存块,使视频扩散模型能够实现持久的世界生成,在保持一致性的同时提升吞吐量。

自回归视频扩散模型(https://huggingface.co/papers?q=Autoregressive%20video%20diffusion%20models)已实现了实时、动作条件化的世界生成。然而,维持一个持久的世界——即重新回到之前看到的视角时仍能呈现一致内容——仍然是一个未解决的问题。FullKV 缓存注意力(https://huggingface.co/papers?q=KV-cache%20attention)能保持这种一致性,但打破了实时约束:内存占用和注意力成本随展开长度线性增长。滑动窗口推理(https://huggingface.co/papers?q=Sliding%20window%20inference)恢复了吞吐量,但丢弃了长期一致性。我们提出 WorldKV,一个无需训练的框架,包含两个组件:世界检索(World Retrieval)(https://huggingface.co/papers?q=World%20Retrieval)和世界压缩(World Compression)(https://huggingface.co/papers?q=World%20Compression)。世界检索将驱逐的 KV 缓存块存储在 GPU/CPU 内存中,并通过相机/动作对应选择性检索与场景相关的块,将其重新插入到原生注意力窗口(https://huggingface.co/papers?q=attention%20window)中,无需重新编码。世界压缩通过锚帧的键-键相似度(https://huggingface.co/papers?q=key-key%20similarity)修剪每个块内的冗余令牌,将每块存储量减半,从而在固定预算下容纳多一倍的历史记录。在 Matrix-Game-2.0 和 LingBot-World-Fast 上,WorldKV 在约 2 倍吞吐量下达到或超过 FullKV 内存保真度,并且无需任何微调即可与经过内存训练的基线相媲美。项目页面:https://cvlab-kaist.github.io/WorldKV/

查看 arXiv 页面(https://arxiv.org/abs/2605.22718)查看 PDF(https://arxiv.org/pdf/2605.22718)项目页面(https://cvlab-kaist.github.io/WorldKV/)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.22718)

在你的代理中获取这篇论文:

hf papers read 2605\.22718

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2605.22718 即可从此页面链接。

引用此论文的数据集0

没有数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.22718 即可从此页面链接。

引用此论文的 Spaces0

没有 Space 链接到此论文

在 Space README.md 中引用 arxiv.org/abs/2605.22718 即可从此页面链接。

包含此论文的收藏0

没有收藏包含此论文

添加这篇论文到收藏(https://huggingface.co/new-collection)即可从此页面链接。

相似文章

@GitHub_Daily: 做量化研究的朋友,每天面对海量的金融研报和前沿论文,靠人工筛选有价值内容,无疑像大海捞针。 最近发现一个叫 QuantMind 的开源项目,专门做量化金融的智能知识提取与检索。 能自动抓取论文、新闻和博客等内容,把非结构化的文档转化为可查…

X AI KOLs Timeline

QuantMind 是一个开源的量化金融智能知识提取与检索框架,能够自动抓取论文、新闻等非结构化内容,构建可查询的结构化知识库,并支持自然语言检索。

开源 InfiniteKV:一种 KV 缓存,将旧 token 压缩为 104 字节的可搜索记录存储在内存或磁盘中,而非删除。Mistral-7B 从 token 76,747 处作答,超出其训练窗口 2.3 倍。附 Colab 演示

Reddit r/LocalLLaMA

InfiniteKV 是一种开源 KV 缓存技术,将旧 token 压缩为 104 字节的可搜索记录,存储在内存或磁盘中,使模型能够处理超出训练窗口的百万 token 上下文而无需丢弃数据。已验证可与 Mistral-7B 和 SmolLM2 配合使用。

智能体是否需要与知识库分离的“大脑”?

Reddit r/AI_Agents

作者提出一个思维模型:AI智能体应维护一个独立的记忆层(大脑),用于存储可复用的理解,与知识库(图书馆)区分开来,以避免反复重新发现相同的信息。

SkillCAT:对比性评估与拓扑感知的LLM智能体技能自我进化

arXiv cs.CL

SkillCAT是一个无需训练的LLM智能体技能自我进化框架,通过三个阶段解决单轨迹偏差、未经验证的合并和全语料库加载等问题:对比因果提取、评估增强进化和拓扑感知任务执行,在基准测试上实现高达40.40%的提升。