WorldKV:基于世界检索与压缩的高效世界记忆
摘要
WorldKV 是一个无需训练的框架,它检索并压缩键值缓存块,以在视频扩散世界生成中保持长期一致性,在匹配全记忆保真度的同时实现更高吞吐量。
查看缓存全文
缓存时间: 2026/05/22 02:24
论文页面 - WorldKV:结合世界检索与压缩的高效世界记忆
来源:https://huggingface.co/papers/2605.22718
摘要
WorldKV 通过检索并压缩键值缓存块,使视频扩散模型能够实现持久的世界生成,在保持一致性的同时提升吞吐量。
自回归视频扩散模型(https://huggingface.co/papers?q=Autoregressive%20video%20diffusion%20models)已实现了实时、动作条件化的世界生成。然而,维持一个持久的世界——即重新回到之前看到的视角时仍能呈现一致内容——仍然是一个未解决的问题。FullKV 缓存注意力(https://huggingface.co/papers?q=KV-cache%20attention)能保持这种一致性,但打破了实时约束:内存占用和注意力成本随展开长度线性增长。滑动窗口推理(https://huggingface.co/papers?q=Sliding%20window%20inference)恢复了吞吐量,但丢弃了长期一致性。我们提出 WorldKV,一个无需训练的框架,包含两个组件:世界检索(World Retrieval)(https://huggingface.co/papers?q=World%20Retrieval)和世界压缩(World Compression)(https://huggingface.co/papers?q=World%20Compression)。世界检索将驱逐的 KV 缓存块存储在 GPU/CPU 内存中,并通过相机/动作对应选择性检索与场景相关的块,将其重新插入到原生注意力窗口(https://huggingface.co/papers?q=attention%20window)中,无需重新编码。世界压缩通过锚帧的键-键相似度(https://huggingface.co/papers?q=key-key%20similarity)修剪每个块内的冗余令牌,将每块存储量减半,从而在固定预算下容纳多一倍的历史记录。在 Matrix-Game-2.0 和 LingBot-World-Fast 上,WorldKV 在约 2 倍吞吐量下达到或超过 FullKV 内存保真度,并且无需任何微调即可与经过内存训练的基线相媲美。项目页面:https://cvlab-kaist.github.io/WorldKV/
查看 arXiv 页面(https://arxiv.org/abs/2605.22718)查看 PDF(https://arxiv.org/pdf/2605.22718)项目页面(https://cvlab-kaist.github.io/WorldKV/)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.22718)
在你的代理中获取这篇论文:
hf papers read 2605\.22718
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接到此论文
在模型 README.md 中引用 arxiv.org/abs/2605.22718 即可从此页面链接。
引用此论文的数据集0
没有数据集链接到此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.22718 即可从此页面链接。
引用此论文的 Spaces0
没有 Space 链接到此论文
在 Space README.md 中引用 arxiv.org/abs/2605.22718 即可从此页面链接。
包含此论文的收藏0
没有收藏包含此论文
添加这篇论文到收藏(https://huggingface.co/new-collection)即可从此页面链接。
相似文章
@GitHub_Daily: 做量化研究的朋友,每天面对海量的金融研报和前沿论文,靠人工筛选有价值内容,无疑像大海捞针。 最近发现一个叫 QuantMind 的开源项目,专门做量化金融的智能知识提取与检索。 能自动抓取论文、新闻和博客等内容,把非结构化的文档转化为可查…
QuantMind 是一个开源的量化金融智能知识提取与检索框架,能够自动抓取论文、新闻等非结构化内容,构建可查询的结构化知识库,并支持自然语言检索。
开源 InfiniteKV:一种 KV 缓存,将旧 token 压缩为 104 字节的可搜索记录存储在内存或磁盘中,而非删除。Mistral-7B 从 token 76,747 处作答,超出其训练窗口 2.3 倍。附 Colab 演示
InfiniteKV 是一种开源 KV 缓存技术,将旧 token 压缩为 104 字节的可搜索记录,存储在内存或磁盘中,使模型能够处理超出训练窗口的百万 token 上下文而无需丢弃数据。已验证可与 Mistral-7B 和 SmolLM2 配合使用。
智能体是否需要与知识库分离的“大脑”?
作者提出一个思维模型:AI智能体应维护一个独立的记忆层(大脑),用于存储可复用的理解,与知识库(图书馆)区分开来,以避免反复重新发现相同的信息。
学习什么该记住:面向代理记忆的认知启发的多因素价值模型
提出一种面向LLM代理中代理记忆的认知启发的多因素价值函数,通过学习可解释的权重来决定在记忆约束下编码、遗忘和检索什么。相比仅基于相似性或基于最近性的基线方法,显著提高了黄金证据的保留率。
SkillCAT:对比性评估与拓扑感知的LLM智能体技能自我进化
SkillCAT是一个无需训练的LLM智能体技能自我进化框架,通过三个阶段解决单轨迹偏差、未经验证的合并和全语料库加载等问题:对比因果提取、评估增强进化和拓扑感知任务执行,在基准测试上实现高达40.40%的提升。