TTKV：面向长上下文LLM推理的时间分层KV缓存

arXiv cs.CL 2026/04/23 04:00 论文

摘要

TTKV借鉴人类记忆机制，提出时间分层KV缓存，在128K上下文LLM推理中降低76%延迟、吞吐量翻倍，跨层流量减少5.94倍。

arXiv:2604.19769v1 公告类型：新增摘要：键值（KV）缓存是大语言模型（LLM）高效推理的关键，但其内存占用随上下文长度线性增长，成为严重的可扩展性瓶颈。现有方法普遍将KV状态视为同等重要，默认其在时间与精度上均匀可访问。然而，这与人类记忆系统相悖：记忆的清晰度、回忆频率与相关性均随时间远近而异。受此启发，我们提出TTKV——一种将人类记忆映射到KV缓存的管理框架。TTKV按时间维度将KV缓存划分为容量与精度各异的层级，重点解决三方面问题：（1）层级布局，用HBM与DRAM解耦快、慢存储；（2）层级内容，依据时间邻近性把较新的KV状态放入更快、更高精度的层级；（3）层级交互，采用分块流式注意力，在访问慢层时重叠通信与计算。实验表明，TTKV在128K上下文任务中将跨层流量降低5.94倍，相比强基线最高减少76%延迟，吞吐量提升2倍。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/23 10:02

# TTKV：面向长上下文 LLM 推理的时间分层 KV 缓存  
来源：https://arxiv.org/html/2604.19769  
Gradwell Dzikanyanga1†、杨伟豪1、黄浩1、吴东磊2、王士豪1、夏文1‡、Sanjeeb K C1  
1 哈尔滨工业大学（深圳）、2 广州大学  
†：[email protected]，‡：[email protected]  

###### 摘要  

键值（KV）缓存对大语言模型（LLM）的高效推理至关重要，但其内存占用随上下文长度线性增长，成为严重的可扩展性瓶颈。现有方法普遍将 KV 状态视为时间维度上等价，默认其精度与可访问性均匀一致。然而，这与人类记忆系统相悖——记忆的清晰度、召回频率与相关性均随时间远近而变化。受此启发，我们提出 TTKV：一种将人类记忆机制映射到 KV 缓存的管理框架。TTKV 将 KV 缓存划分为具有异构容量与精度的“时间层”，设计涵盖三点：① 层布局——用 HBM 与 DRAM 解耦快、慢记忆；② 层内容——按时间邻近度将更新的 KV 状态放入更快、更高精度的层；③ 层交互——采用分块流式注意力，在访问慢层时重叠通信与计算。实验表明，TTKV 在 128 K 上下文任务中将跨层流量降低 5.94×，端到端延迟最多减少 76%，吞吐提升 2×，优于强基线。  

## 1 引言  

大语言模型（LLM）在众多任务上展现出卓越能力。实现高效自回归推理的关键机制是 KV 缓存，它保存已生成 token 的键值激活，避免 transformer 注意力层重复计算。  

然而，KV 缓存随上下文长度线性增长，很快成为内存与延迟的双重瓶颈。例如，LLaMA-7B 在 32 K 窗口下，仅 KV 缓存就需数十 GB 内存。标准 LLM 推理分两段：并行 prefill 阶段处理输入并填充 KV 缓存；顺序 decode 阶段自回归地反复查询缓存以生成新 token。解码时每步都要 attend 全部缓存，使 KV 访问成为单 token 延迟的决定因素。  

当 KV 缓存大小超过高带宽内存（HBM）后，必须溢出到主机内存（DRAM）。由于 PCIe 带宽通常比 HBM 低一个数量级，跨层传输在长上下文解码中占主导。因此，性能瓶颈从“缩小 KV 缓存”转变为“将 KV 压缩技术与存储层次协同，以最小化昂贵的跨层读取”。若缺少协同，即使做量化和稀疏化，仍受限于主机到 GPU 的流量。  

现有缓解手段分两类：  
1. KV 压缩：通过量化、稀疏化减小体积；  
2. KV 卸载：将缓存放到 DRAM 并优化访问模式。  

但二者单独使用均无法彻底解决长上下文推理难题：仅压缩仍可能超出 GPU 内存；仅卸载不解决缓存持续增长；生硬结合又会在“体积-流量-延迟”间产生冲突。因此，问题归结为：**如何有效融合 KV 压缩与卸载，以支撑高效长上下文 LLM 推理？**  

我们提出 TTKV，一种受人类记忆机制启发的 KV 缓存管理新视角。现有方法默认所有 KV 状态时间等价；我们观察到其重要性随时间变化：近期状态类似“工作记忆”，对生成更关键；远期状态仅少数仍相关。该抽象允许不同时间相关性的 KV 采用异构延迟与精度管理，为高效长上下文推理奠定基础。  

TTKV 的三件套：  
1. 层布局：将缓存分为快层（HBM，短时记忆）与慢层（DRAM，长时记忆）；  
2. 层内容：按时间相关性分配——快层保存近期高频 token 的全精度；慢层对老旧低频状态做差分量化与稀疏化；  
3. 层交互：采用流式注意力，在解码时重叠计算与通信，隐藏慢层访问延迟。  

我们在 LLaMA-3.1-8B、Qwen2.5-32B、DeepSeek-R1-14B、LLaMA-3.1-70B 等模型上评测，与 KIVI、KVQuant、DiffKV、ShadowKV 等 SOTA 对比。128 K 上下文任务中，TTKV 跨层流量降低 5.94×，延迟减少最多 76%，吞吐提升 2×，同时保持模型精度。  

贡献归纳：  
- 发现现有方法仅侧重压缩或卸载，难以同时降低跨层流量、解码延迟并保持精度；  
- 提出 TTKV，以人类记忆机制为蓝本，按时间分层、异构容量与精度管理 KV 缓存；  
- 实验表明 TTKV 在多种上下文长度下显著减少主机-GPU 流量与延迟，实现可扩展的长上下文推理。  

## 2 相关工作  

#### KV 压缩方法  
通过量化或稀疏化减小 GPU 内存占用。量化将状态压缩为低精度；稀疏化仅保留显著状态。然而长上下文下体积仍线性增长，易超 GPU 内存。  

#### KV 卸载方法  
将缓存卸载到更大但更慢的 DRAM，并优化放置与调度。但未与压缩联合优化，仍产生大量跨层流量，难以最小化端到端延迟。  

## 3 设计原理  

人类记忆会对不同时间的记忆赋予不同重要性。我们模仿该机制，将 KV 缓存显式拆分为两层。基于此提出“层（Tier）”结构，考虑三方面：  

1. 层布局：按现有硬件层次（HBM/DRAM）放置；  
2. 层内容：不同层配置不同容量与精度，模拟时间维度的差异化重要性；  
3. 层交互：两层间通过流水线方式在 prefill 与 decode 阶段重叠计算与通信。  

以下经验证据验证这三点必要性。  

![图1](https://arxiv.org/html/2604.19769#S3.F1)  
图1：不同 KV 缓存放置策略的精度-延迟权衡。仅分层布局（TTKV）在上下文增长时同时保持高精度与低延迟。  

#### 层布局：按架构放置  
在 Llama-3.1-8B 上比较四种策略：全 HBM、全 DRAM、均匀切分、分层放置。GPU-only 因容量失效；DRAM-only 容量足但延迟高；均匀切分双输；唯有分层布局——近期高频 token 留 HBM，老旧上下文下 DRAM——同时维持精度与低延迟。  

#### 层内容：差异化容量与精度  
人类对关键信息高保真，对次要信息压缩。快层（HBM）保存近期高频 token 全精度；慢层（DRAM）对老旧状态激进压缩。进一步发现 Llama-3.1-8B 中 key 的方差与动态范围远大于 value，更易受精度损失影响，因此在慢层给 key 分配更多比特，value 更少，兼顾压缩比与注意力精度。  

![图2](https://arxiv.org/html/2604.19769#S3.F2)  
图2：Llama-3.1-8B 中 key（左）与 value（右）幅值分布。Key 动态范围更大，支持在快层给更高精度。  

#### 层交互：计算通信流水线  
人类回忆不会阻塞认知，而是边推理边增量召回。受此启发，跨层传输采用流水线：将大块传输拆分为小块，与注意力计算重叠。64 K 上下文解码步分析显示，基线批量传输使 GPU 空闲约 78%；流水线重叠后传输延迟约降低 3×。  

![图3](https://arxiv.org/html/2604.19769#S3.F3)  
图3：64 K 上下文 decode 时间线（batch=8）。a) 基线：批量传输，GPU 空等；b) 流水线：通信计算重叠，提升利用率。  

![图4](https://arxiv.org/html/2604.19769#S3.F4)  
图4：TTKV 概览。受人类记忆启发，由层布局映射、层内容（差分量化）、层交互（流式注意力）三部分组成，实现高效推理。  

## 4 方法  

基于第 3 节的三原则——层布局、层内容、层交互——我们提出统一框架 TTKV，协同设计 KV 缓存与存储层次。如图4，TTKV 具体实现：① 两层存储布局（4.1）；② 差分量化（4.2）；③ 流式注意力（4.3）。  

### 4.1 层布局：分层存储架构  
Tier Layout 原则……

TTKV：面向长上下文LLM推理的时间分层KV缓存

相似文章

KV Packet: 免重计算的上下文无关KV缓存用于大语言模型

@pallavishekhar_: 大语言模型中的 KV Cache，阅读链接：https://outcomeschool.com/blog/kv-cache-in-llms…

OjaKV: 上下文感知的在线低秩KV缓存压缩

KV缓存压缩比TurboQuant与逐向量香农极限高出900000倍

基于熵与低秩重构的高保真KV缓存摘要

提交意见反馈