预填充即服务:下一代模型的 KVCache 可跨数据中心

Hacker News Top 论文

摘要

研究者提出“预填充即服务”(PrfaaS),将长上下文预填充卸载到远程计算密集型集群,并通过普通以太网流式传输 KVCache,实现独立扩缩容,使 1T 参数混合模型吞吐提升 32–54%。

暂无内容
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/22 11:03

# Prefill-as-a-Service:下一代模型的 KVCache 可以跨数据中心

来源:https://arxiv.org/html/2604.15039  
Ruoyu Qin¹²、Weiran He¹、Yaoyu Wang¹、Zheming Li¹、Xinran Xu¹、Yongwei Wu²、Weimin Zheng²、Mingxing Zhang²  
¹Moonshot AI ²清华大学

###### 摘要

Prefill-decode(PD)分离已成为大规模 LLM 服务的标准架构,但实践中其部署边界仍受 KVCache 传输制约。在传统稠密注意力模型中,prefill 产生海量 KVCache 流量,使得 prefill 与 decode 必须紧耦合在同一高带宽网络域内,限制了异构部署与资源弹性。最新混合注意力架构显著缩小 KVCache,使跨集群搬运成为可能。然而,仅靠更小的 KVCache 并不足以让异构跨数据中心 PD 服务落地:真实负载依旧突发、请求长度极度倾斜、前缀缓存分布不均、跨集群带宽波动。若简单地把所有 prefill 外移,仍会遭遇拥塞、排队不稳与利用率低下。

我们提出 Prefill-as-a-Service(PrfaaS),一种跨数据中心服务架构:将长上下文 prefill 有选择地卸载到独立、计算密集的 prefill 集群,再通过普通以太网把 KVCache 传回本地 PD 集群做 decode。PrfaaS 不把 KVCache 缩小当作终点,而是把“模型侧 KV 效率”与“系统侧选择性卸载、带宽感知调度、缓存感知放置”结合起来。该设计不再要求异构加速器共享同一低延迟 RDMA 网络,可在松耦合集群间独立扩展 prefill 与 decode 容量。在一项基于内部 1T 参数混合模型的案例研究中,PrfaaS 异构部署相比同构 PD 基线和朴素异构基线分别提升 54% 与 32% 的吞吐,同时仅消耗少量跨数据中心带宽。

## 1 引言

Prefill-decode(PD)分离已成为大规模 LLM 服务的主流范式,因为它把推理中两种本质不同的阶段分开:prefill 算力密集,decode 内存带宽密集。在 Moonshot AI,Mooncake[22] 率先把 KVCache 当成一等系统资源,该思路随后通过我们与 vLLM[29]、SGLang[7]、Dynamo[20] 等开源框架的合作扩散到整个生态。理论上,PD 分离还应解锁更宏大的目标——异构服务:prefill 跑在算力型加速器,decode 跑在带宽型加速器。硬件路线图已在朝此方向演进:NVIDIA Rubin CPX[19] 明确瞄准高吞吐长上下文 prefill,而 Groq LPU[1,8] 则强调 decode 所需的极致内存带宽。

然而实践中,这一异构愿景仍难落地,因为当前 PD 分离隐含强网络假设:一旦 prefill 与 decode 位于不同节点,KVCache 必须足够快地搬完,否则会拖慢计算。传统部署因此把两阶段都圈在同一高带宽网络域——通常是单机房的 RDMA 网络——PD 分离只在同构集群内表现良好。问题在于,单数据中心范式天然无法扩展到异构场景:加速器资源按芯片类型与地理位置池化,算力型与推理型硬件往往不在同一紧耦合域。这催生跨集群分离 prefill 与 decode 的动机,可利用更快的计算硬件降低长上下文成本与延迟。但前提是 KVCache 搬运足够便宜;一旦跨出高带宽网络,KVCache 必须经更慢的链路传输,若成本过高,prefill 侧的收益会被抵消,甚至成为新瓶颈。即便两集群地理上邻近,要求它们共享同一 RDMA 网络也运维僵化、不现实。更糟的是,异构硬件若被锁进单一紧耦合集群,prefill/decode 硬件比例便难以随流量模式动态调整。结果,当前 PD 部署仍无法兑现异构分离应带来的灵活性。

因此,核心障碍是 KVCache 传输。最新混合注意力架构为这一局面带来转机。新兴模型[26,27,31,3,11,2,18] 把少量全注意力层与大量线性复杂度或有限状态层交错,如 Kimi Delta Attention(KDA)[26]、Sliding Window Attention(SWA)[5] 等,使 KVCache 相对稠密注意力缩小一个量级,从而让跨数据中心搬运变得“可行”。但“可行”不等于“可用”:若简单地外移所有 prefill,仍会遭遇突发、长度倾斜、缓存不均、带宽抖动。混合架构放松了 KVCache 瓶颈,却未消除系统设计需求,而是为系统优化创造了新机会。

见题注  
(a) 现状:紧耦合单集群推理 (b) PrfaaS:经跨数据中心 KVCache 的多集群分离推理  
图 1:PD 分离 LLM 服务的两种部署范式对比  

本文的核心设计原则由此而来:通过跨数据中心 KVCache 实现 Prefill-as-a-Service(PrfaaS)。如图 1 所示,PrfaaS 不再把异构加速器硬塞进同一 RDMA 孤岛,而是构建独立的长上下文 prefill 集群,使用廉价高吞吐算力。PrfaaS 并非把所有请求都外移,而是仅把“长且未命中缓存”的 prefill 卸载到计算密集集群,短请求仍走本地 PD 路径;产生的 KVCache 经普通以太网传回 decode 集群。该设计反映系统现实:分离 prefill 的动机强烈,但混合模型的 KVCache 仍没便宜到可以“无脑”搬运;关键在于选择性卸载,把跨集群带宽集中用在“prefill 加速收益最大”的长请求上,避免短请求挤占窄链路。

要让设计落地,还需直面剩余系统挑战的调度与缓存管理。鉴于 KVCache 缩小后带宽依旧受限,PrfaaS 采用“长度阈值路由”只搬长请求、“带宽感知调度”在拥塞前响应链路波动,以及“全局 KVCache 管理器+混合前缀缓存池”综合考量请求长度、缓存位置与跨集群带宽。这些机制使跨集群异构服务在生产环境可行:无需异构加速器共享低延迟 RDMA,即可让算力型 prefill 与带宽型 decode 在松耦合集群、机房乃至地域间独立伸缩。

该灵活性直接解决实践中难以调和的部署约束:加速器类别不共位、云区域硬件不对称、 opportunistic 远程容量等。我们用内部 1T 参数混合模型(Kimi Linear 架构[26])进行案例评估:PrfaaS 异构部署(独立长上下文 prefill 集群 + 常规 PD 集群负责 decode 与短 prefill)相比同构 PD 基线与朴素异构基线分别提升 54% 与 32% 的吞吐,每机消耗的跨数据中心带宽仅 modest。结果证明:KVCache 高效的模型架构是跨数据中心异构服务的必要但不充分条件;真正让部署实用的是“模型侧 KV 减量”与“系统侧选择性卸载+带宽感知调度”的结合,二者共同把跨数据中心 PD 分离从美好想法变成可落地的服务架构。

## 2 背景

### 2.1 传统 PD 分离的“带宽墙”

Prefill-decode(PD)分离已成为大规模 LLM 服务的标准抽象,因为它清晰切分了推理中两个阶段:prefill 重算力,decode 重内存带宽。分离可提升利用率并允许阶段专属优化,但并非零成本。一旦 prefill 与 decode 位于不同节点,每份请求都需把 KVCache 从 prefill 端运往 decode 端,把原本芯片内的状态切换变成跨节点传输。实践中,这一运输需求把当今 PD 部署牢牢锁在单一数据中心、绑在 RDMA 级 scale-out 网络上。

表 1:代表性模型配置。A 类为线性复杂度块,B 类为二次复杂度全注意力块。  

在延迟敏感的服务约束下,prefill 产生的 KVCache 可异步外发以最大化算力利用率。为避免 GPU 空转,prefill 集群的出口带宽 *B*<sub>out</sub> 必须超过该集群产生 KVCache 的总速率。由于总速率与实例数线性相关,约束最终落到单实例的“KV 吞吐”上,定义为  

Φ<sub>kv</sub>(*l*) = *S*<sub>kv</sub>(*l*) / *T*<sub>prefill</sub>(*l*), (1)  

其中 *S*<sub>kv</sub>(*l*) 为长度 *l* 请求的 KVCache 大小,*T*<sub>prefill</sub>(*l*) 为对应 prefill 延迟。该指标高度依赖模型架构。对传统稠密注意力架构,这一运输需求是主导系统约束。标准 Transformer 注意力下,KVCache 随上下文线性增长,可达数十 GB。图 2 给出稠密模型 MiniMax-M2.5(带 GQA)在不同输入长度下的 KV 吞吐:32K 请求单实例产生约 60 Gbps KVCache,远超典型机器跨数据中心以太网容量。这正是传统 PD 分离仍被绑在紧耦合网络域的根本原因——网络预算太大,跨松散互联甚至跨机房根本不可行。

这一网络耦合也阻碍了异构服务的干净扩展。各阶段已有专用芯片:Rubin CPX 瞄准 prefill 吞吐,LPU 类设计瞄准 decode 带宽。然而高性能互联与机框形态、部署环境强绑定,把异构硬件连到 RDMA 级带宽通常需定制工程。更糟的是,一旦异构硬件被塞进单一紧耦合集群,系统便继承固定的 prefill/decode 硬件比例。生产流量中,请求混合比、流量、前缀缓存命中率持续波动, pipeline 一侧必然过配、另一侧成瓶颈。同构集群里,任何机器都可在 prefill/decode 间动态切换;异构集群无此灵活性:专用于 prefill 的芯片无法跑 decode,反之亦然,导致严重负载失衡与资源搁浅。结果是运维复杂度升高,异构 PD 在真实高吞吐场景落地寥寥。

见题注  
图 2:MiniMax-M2.5 在 8×H200 实例上不同输入长度的 KV 吞吐。  

表 2:不同注意力机制的 prefill 延迟与 KV 吞吐特性(越低越好)。

### 2.2 混合注意力改变 PD 部署边界

表 3:不同输入长度下的 KV 吞吐 Φ<sub>kv</sub>(Gbps)。所有模型在 8×H200 上使用 SGLang v0.5.9 测试。  

改变这一局面的不是新调度器,而是模型架构本身。随着 LLM 走向更长上下文,传统 MHA 成本难以为继,行业全面转向 KVCache 友好设计。表 2 按 prefill 延迟 *T*<sub>prefill</sub> 与 KV 吞吐 Φ<sub>kv</sub> 两个维度对主流注意力改进分类。长上下文下,GQA、MLA 等全注意力机制仍保持二次复杂度,prefill 成本高;稀疏注意力[6] 减少计算量、可降低 prefill 延迟,但仍需把随序列长度增长的 KVCache 传给 decode 实例,KV 吞吐仍是瓶颈。相反,线性注意力与 SWA 保持线性计算成本,且状态有界,显著降低 KV 吞吐。

相似文章

OjaKV: 上下文感知的在线低秩KV缓存压缩

arXiv cs.CL

OjaKV 引入了一种上下文感知的在线低秩KV缓存压缩框架,该框架利用混合存储策略和Oja算法进行增量子空间自适应,以减少长上下文大语言模型推理中的GPU内存瓶颈,且无需模型微调。

KV缓存压缩比TurboQuant与逐向量香农极限高出900000倍

Hacker News Top

一篇新论文提出了一种基于概率语言Trie树和预测差分编码的顺序KV缓存压缩方法。该方法通过利用语言模型Token的序列结构而非对向量进行独立处理,实现了超越TurboQuant约91.4万倍的理论压缩比。

KV Packet: 免重计算的上下文无关KV缓存用于大语言模型

Hugging Face Daily Papers

KV Packet 提出了一种免重计算的缓存复用框架,用于大语言模型。该框架使用可训练的软标记适配器来弥合上下文不连续性,消除了开销,同时在 Llama-3.1 和 Qwen2.5 上的性能与完全重计算基线相当。