@Michaelzsguo: KV缓存是模型在生成期间的工作记忆。随着上下文窗口变长,模型必须保留更多…
摘要
DeepSeek的KV缓存压缩创新,包括MLA和CSA/HCA,将KV缓存大小减少了93%,实现了高效的长上下文推理和基于SSD的缓存,正如antirez的ds4.c项目所展示的那样。
查看缓存全文
缓存时间: 2026/05/24 06:23
KV 缓存是模型在生成过程中的工作内存。
随着上下文窗口变长,模型需要为之前生成的 token 保留更多的键值注意力状态。这个缓存会占据大量 RAM 或高带宽内存(HBM),尤其在长上下文场景下,直接限制了你同时能服务多少个长提示词,或者本地运行模型所需的硬件规格(比如需要 128GB 而不是 64GB)。
那么,DeepSeek 是如何把 KV 缓存做得如此紧凑的呢?
DeepSeek 的 KV 缓存方案源于两大创新。
首先,DeepSeek-V2 中的 MLA 显著缩小了每个 token 的 KV 体积。相比旧版注意力架构,DeepSeek-V2 已将 KV 缓存减少了约 93%。
接着 DeepSeek-V4 加入了 CSA + HCA,对长上下文记忆本身进行了压缩:更少的完整 KV 条目、稀疏检索以及高度压缩的全局记忆。
这种紧凑的 KV 缓存直接催生了 @antirez 的 ds4.c 项目。
一旦 KV 缓存足够小,将其作为可复用的本地状态存储在固态硬盘上就变得可行:
一次预填充,持久化到固态硬盘,之后重新加载,并从新的后缀继续生成。
引用 antirez 的话:
“KV 缓存实际上是第一类磁盘公民。”
相似文章
@Michaelzsguo: 发现了一个对你的本地LLM推理优化很有用的工具:https://kvcache.ai/tools/kv-cache-ca…
一条推文分享了来自KVCache.ai的KV缓存大小计算器,这是一个用于估算本地LLM推理中KV缓存内存使用量的工具,并强调DeepSeek V4 Pro的100万token仅使用5GB内存。
@TheTuringPost: 为什么 KV cache 是 LLM 速度快的主要原因之一?KV cache 将注意力机制与生成阶段连接起来……
KV cache 在自回归生成过程中存储先前计算的键向量和值向量,使模型能够避免在每一步重新计算整个序列,从而显著加速推理,但代价是内存使用增加。
@pallavishekhar_: 大语言模型中的 KV Cache,阅读链接:https://outcomeschool.com/blog/kv-cache-in-llms…
本文解释了大语言模型中 KV Cache 的概念,详细阐述了其通过存储和复用键值对以避免推理过程中的冗余计算,从而优化文本生成的原理。
KV缓存正成为推理的内存层级结构
文章讨论了KV缓存如何演变为LLM推理的内存层级结构,优化解码过程中的内存管理。
OjaKV: 上下文感知的在线低秩KV缓存压缩
OjaKV 引入了一种上下文感知的在线低秩KV缓存压缩框架,该框架利用混合存储策略和Oja算法进行增量子空间自适应,以减少长上下文大语言模型推理中的GPU内存瓶颈,且无需模型微调。