TTKV:面向长上下文LLM推理的时间分层KV缓存
摘要
TTKV借鉴人类记忆机制,提出时间分层KV缓存,在128K上下文LLM推理中降低76%延迟、吞吐量翻倍,跨层流量减少5.94倍。
arXiv:2604.19769v1 公告类型:新增
摘要:键值(KV)缓存是大语言模型(LLM)高效推理的关键,但其内存占用随上下文长度线性增长,成为严重的可扩展性瓶颈。现有方法普遍将KV状态视为同等重要,默认其在时间与精度上均匀可访问。然而,这与人类记忆系统相悖:记忆的清晰度、回忆频率与相关性均随时间远近而异。受此启发,我们提出TTKV——一种将人类记忆映射到KV缓存的管理框架。TTKV按时间维度将KV缓存划分为容量与精度各异的层级,重点解决三方面问题:(1)层级布局,用HBM与DRAM解耦快、慢存储;(2)层级内容,依据时间邻近性把较新的KV状态放入更快、更高精度的层级;(3)层级交互,采用分块流式注意力,在访问慢层时重叠通信与计算。实验表明,TTKV在128K上下文任务中将跨层流量降低5.94倍,相比强基线最高减少76%延迟,吞吐量提升2倍。
查看缓存全文
缓存时间: 2026/04/23 10:02
# TTKV:面向长上下文 LLM 推理的时间分层 KV 缓存 来源:https://arxiv.org/html/2604.19769 Gradwell Dzikanyanga1†、杨伟豪1、黄浩1、吴东磊2、王士豪1、夏文1‡、Sanjeeb K C1 1 哈尔滨工业大学(深圳)、2 广州大学 †:[email protected],‡:[email protected] ###### 摘要 键值(KV)缓存对大语言模型(LLM)的高效推理至关重要,但其内存占用随上下文长度线性增长,成为严重的可扩展性瓶颈。现有方法普遍将 KV 状态视为时间维度上等价,默认其精度与可访问性均匀一致。然而,这与人类记忆系统相悖——记忆的清晰度、召回频率与相关性均随时间远近而变化。受此启发,我们提出 TTKV:一种将人类记忆机制映射到 KV 缓存的管理框架。TTKV 将 KV 缓存划分为具有异构容量与精度的“时间层”,设计涵盖三点:① 层布局——用 HBM 与 DRAM 解耦快、慢记忆;② 层内容——按时间邻近度将更新的 KV 状态放入更快、更高精度的层;③ 层交互——采用分块流式注意力,在访问慢层时重叠通信与计算。实验表明,TTKV 在 128 K 上下文任务中将跨层流量降低 5.94×,端到端延迟最多减少 76%,吞吐提升 2×,优于强基线。 ## 1 引言 大语言模型(LLM)在众多任务上展现出卓越能力。实现高效自回归推理的关键机制是 KV 缓存,它保存已生成 token 的键值激活,避免 transformer 注意力层重复计算。 然而,KV 缓存随上下文长度线性增长,很快成为内存与延迟的双重瓶颈。例如,LLaMA-7B 在 32 K 窗口下,仅 KV 缓存就需数十 GB 内存。标准 LLM 推理分两段:并行 prefill 阶段处理输入并填充 KV 缓存;顺序 decode 阶段自回归地反复查询缓存以生成新 token。解码时每步都要 attend 全部缓存,使 KV 访问成为单 token 延迟的决定因素。 当 KV 缓存大小超过高带宽内存(HBM)后,必须溢出到主机内存(DRAM)。由于 PCIe 带宽通常比 HBM 低一个数量级,跨层传输在长上下文解码中占主导。因此,性能瓶颈从“缩小 KV 缓存”转变为“将 KV 压缩技术与存储层次协同,以最小化昂贵的跨层读取”。若缺少协同,即使做量化和稀疏化,仍受限于主机到 GPU 的流量。 现有缓解手段分两类: 1. KV 压缩:通过量化、稀疏化减小体积; 2. KV 卸载:将缓存放到 DRAM 并优化访问模式。 但二者单独使用均无法彻底解决长上下文推理难题:仅压缩仍可能超出 GPU 内存;仅卸载不解决缓存持续增长;生硬结合又会在“体积-流量-延迟”间产生冲突。因此,问题归结为:**如何有效融合 KV 压缩与卸载,以支撑高效长上下文 LLM 推理?** 我们提出 TTKV,一种受人类记忆机制启发的 KV 缓存管理新视角。现有方法默认所有 KV 状态时间等价;我们观察到其重要性随时间变化:近期状态类似“工作记忆”,对生成更关键;远期状态仅少数仍相关。该抽象允许不同时间相关性的 KV 采用异构延迟与精度管理,为高效长上下文推理奠定基础。 TTKV 的三件套: 1. 层布局:将缓存分为快层(HBM,短时记忆)与慢层(DRAM,长时记忆); 2. 层内容:按时间相关性分配——快层保存近期高频 token 的全精度;慢层对老旧低频状态做差分量化与稀疏化; 3. 层交互:采用流式注意力,在解码时重叠计算与通信,隐藏慢层访问延迟。 我们在 LLaMA-3.1-8B、Qwen2.5-32B、DeepSeek-R1-14B、LLaMA-3.1-70B 等模型上评测,与 KIVI、KVQuant、DiffKV、ShadowKV 等 SOTA 对比。128 K 上下文任务中,TTKV 跨层流量降低 5.94×,延迟减少最多 76%,吞吐提升 2×,同时保持模型精度。 贡献归纳: - 发现现有方法仅侧重压缩或卸载,难以同时降低跨层流量、解码延迟并保持精度; - 提出 TTKV,以人类记忆机制为蓝本,按时间分层、异构容量与精度管理 KV 缓存; - 实验表明 TTKV 在多种上下文长度下显著减少主机-GPU 流量与延迟,实现可扩展的长上下文推理。 ## 2 相关工作 #### KV 压缩方法 通过量化或稀疏化减小 GPU 内存占用。量化将状态压缩为低精度;稀疏化仅保留显著状态。然而长上下文下体积仍线性增长,易超 GPU 内存。 #### KV 卸载方法 将缓存卸载到更大但更慢的 DRAM,并优化放置与调度。但未与压缩联合优化,仍产生大量跨层流量,难以最小化端到端延迟。 ## 3 设计原理 人类记忆会对不同时间的记忆赋予不同重要性。我们模仿该机制,将 KV 缓存显式拆分为两层。基于此提出“层(Tier)”结构,考虑三方面: 1. 层布局:按现有硬件层次(HBM/DRAM)放置; 2. 层内容:不同层配置不同容量与精度,模拟时间维度的差异化重要性; 3. 层交互:两层间通过流水线方式在 prefill 与 decode 阶段重叠计算与通信。 以下经验证据验证这三点必要性。  图1:不同 KV 缓存放置策略的精度-延迟权衡。仅分层布局(TTKV)在上下文增长时同时保持高精度与低延迟。 #### 层布局:按架构放置 在 Llama-3.1-8B 上比较四种策略:全 HBM、全 DRAM、均匀切分、分层放置。GPU-only 因容量失效;DRAM-only 容量足但延迟高;均匀切分双输;唯有分层布局——近期高频 token 留 HBM,老旧上下文下 DRAM——同时维持精度与低延迟。 #### 层内容:差异化容量与精度 人类对关键信息高保真,对次要信息压缩。快层(HBM)保存近期高频 token 全精度;慢层(DRAM)对老旧状态激进压缩。进一步发现 Llama-3.1-8B 中 key 的方差与动态范围远大于 value,更易受精度损失影响,因此在慢层给 key 分配更多比特,value 更少,兼顾压缩比与注意力精度。  图2:Llama-3.1-8B 中 key(左)与 value(右)幅值分布。Key 动态范围更大,支持在快层给更高精度。 #### 层交互:计算通信流水线 人类回忆不会阻塞认知,而是边推理边增量召回。受此启发,跨层传输采用流水线:将大块传输拆分为小块,与注意力计算重叠。64 K 上下文解码步分析显示,基线批量传输使 GPU 空闲约 78%;流水线重叠后传输延迟约降低 3×。  图3:64 K 上下文 decode 时间线(batch=8)。a) 基线:批量传输,GPU 空等;b) 流水线:通信计算重叠,提升利用率。  图4:TTKV 概览。受人类记忆启发,由层布局映射、层内容(差分量化)、层交互(流式注意力)三部分组成,实现高效推理。 ## 4 方法 基于第 3 节的三原则——层布局、层内容、层交互——我们提出统一框架 TTKV,协同设计 KV 缓存与存储层次。如图4,TTKV 具体实现:① 两层存储布局(4.1);② 差分量化(4.2);③ 流式注意力(4.3)。 ### 4.1 层布局:分层存储架构 Tier Layout 原则……
相似文章
KV Packet: 免重计算的上下文无关KV缓存用于大语言模型
KV Packet 提出了一种免重计算的缓存复用框架,用于大语言模型。该框架使用可训练的软标记适配器来弥合上下文不连续性,消除了开销,同时在 Llama-3.1 和 Qwen2.5 上的性能与完全重计算基线相当。
@pallavishekhar_: 大语言模型中的 KV Cache,阅读链接:https://outcomeschool.com/blog/kv-cache-in-llms…
本文解释了大语言模型中 KV Cache 的概念,详细阐述了其通过存储和复用键值对以避免推理过程中的冗余计算,从而优化文本生成的原理。
OjaKV: 上下文感知的在线低秩KV缓存压缩
OjaKV 引入了一种上下文感知的在线低秩KV缓存压缩框架,该框架利用混合存储策略和Oja算法进行增量子空间自适应,以减少长上下文大语言模型推理中的GPU内存瓶颈,且无需模型微调。
KV缓存压缩比TurboQuant与逐向量香农极限高出900000倍
一篇新论文提出了一种基于概率语言Trie树和预测差分编码的顺序KV缓存压缩方法。该方法通过利用语言模型Token的序列结构而非对向量进行独立处理,实现了超越TurboQuant约91.4万倍的理论压缩比。
基于熵与低秩重构的高保真KV缓存摘要
提出一种SRC流水线,通过基于熵的选择和低秩重构对KV缓存进行摘要,而非直接裁剪token,在百万token的LLM上下文中降低显存占用,同时避免灾难性注意力错误。