预填充即服务：下一代模型的 KVCache 可跨数据中心

Hacker News Top 2026/04/19 05:58 论文

摘要

研究者提出“预填充即服务”（PrfaaS），将长上下文预填充卸载到远程计算密集型集群，并通过普通以太网流式传输 KVCache，实现独立扩缩容，使 1T 参数混合模型吞吐提升 32–54%。

暂无内容

查看缓存全文

缓存时间: 2026/04/22 11:03

# Prefill-as-a-Service：下一代模型的 KVCache 可以跨数据中心

来源：https://arxiv.org/html/2604.15039  
Ruoyu Qin¹²、Weiran He¹、Yaoyu Wang¹、Zheming Li¹、Xinran Xu¹、Yongwei Wu²、Weimin Zheng²、Mingxing Zhang²  
¹Moonshot AI ²清华大学

###### 摘要

Prefill-decode（PD）分离已成为大规模 LLM 服务的标准架构，但实践中其部署边界仍受 KVCache 传输制约。在传统稠密注意力模型中，prefill 产生海量 KVCache 流量，使得 prefill 与 decode 必须紧耦合在同一高带宽网络域内，限制了异构部署与资源弹性。最新混合注意力架构显著缩小 KVCache，使跨集群搬运成为可能。然而，仅靠更小的 KVCache 并不足以让异构跨数据中心 PD 服务落地：真实负载依旧突发、请求长度极度倾斜、前缀缓存分布不均、跨集群带宽波动。若简单地把所有 prefill 外移，仍会遭遇拥塞、排队不稳与利用率低下。

我们提出 Prefill-as-a-Service（PrfaaS），一种跨数据中心服务架构：将长上下文 prefill 有选择地卸载到独立、计算密集的 prefill 集群，再通过普通以太网把 KVCache 传回本地 PD 集群做 decode。PrfaaS 不把 KVCache 缩小当作终点，而是把“模型侧 KV 效率”与“系统侧选择性卸载、带宽感知调度、缓存感知放置”结合起来。该设计不再要求异构加速器共享同一低延迟 RDMA 网络，可在松耦合集群间独立扩展 prefill 与 decode 容量。在一项基于内部 1T 参数混合模型的案例研究中，PrfaaS 异构部署相比同构 PD 基线和朴素异构基线分别提升 54% 与 32% 的吞吐，同时仅消耗少量跨数据中心带宽。

## 1 引言

Prefill-decode（PD）分离已成为大规模 LLM 服务的主流范式，因为它把推理中两种本质不同的阶段分开：prefill 算力密集，decode 内存带宽密集。在 Moonshot AI，Mooncake[22] 率先把 KVCache 当成一等系统资源，该思路随后通过我们与 vLLM[29]、SGLang[7]、Dynamo[20] 等开源框架的合作扩散到整个生态。理论上，PD 分离还应解锁更宏大的目标——异构服务：prefill 跑在算力型加速器，decode 跑在带宽型加速器。硬件路线图已在朝此方向演进：NVIDIA Rubin CPX[19] 明确瞄准高吞吐长上下文 prefill，而 Groq LPU[1,8] 则强调 decode 所需的极致内存带宽。

然而实践中，这一异构愿景仍难落地，因为当前 PD 分离隐含强网络假设：一旦 prefill 与 decode 位于不同节点，KVCache 必须足够快地搬完，否则会拖慢计算。传统部署因此把两阶段都圈在同一高带宽网络域——通常是单机房的 RDMA 网络——PD 分离只在同构集群内表现良好。问题在于，单数据中心范式天然无法扩展到异构场景：加速器资源按芯片类型与地理位置池化，算力型与推理型硬件往往不在同一紧耦合域。这催生跨集群分离 prefill 与 decode 的动机，可利用更快的计算硬件降低长上下文成本与延迟。但前提是 KVCache 搬运足够便宜；一旦跨出高带宽网络，KVCache 必须经更慢的链路传输，若成本过高，prefill 侧的收益会被抵消，甚至成为新瓶颈。即便两集群地理上邻近，要求它们共享同一 RDMA 网络也运维僵化、不现实。更糟的是，异构硬件若被锁进单一紧耦合集群，prefill/decode 硬件比例便难以随流量模式动态调整。结果，当前 PD 部署仍无法兑现异构分离应带来的灵活性。

因此，核心障碍是 KVCache 传输。最新混合注意力架构为这一局面带来转机。新兴模型[26,27,31,3,11,2,18] 把少量全注意力层与大量线性复杂度或有限状态层交错，如 Kimi Delta Attention（KDA）[26]、Sliding Window Attention（SWA）[5] 等，使 KVCache 相对稠密注意力缩小一个量级，从而让跨数据中心搬运变得“可行”。但“可行”不等于“可用”：若简单地外移所有 prefill，仍会遭遇突发、长度倾斜、缓存不均、带宽抖动。混合架构放松了 KVCache 瓶颈，却未消除系统设计需求，而是为系统优化创造了新机会。

见题注  
(a) 现状：紧耦合单集群推理 (b) PrfaaS：经跨数据中心 KVCache 的多集群分离推理  
图 1：PD 分离 LLM 服务的两种部署范式对比  

本文的核心设计原则由此而来：通过跨数据中心 KVCache 实现 Prefill-as-a-Service（PrfaaS）。如图 1 所示，PrfaaS 不再把异构加速器硬塞进同一 RDMA 孤岛，而是构建独立的长上下文 prefill 集群，使用廉价高吞吐算力。PrfaaS 并非把所有请求都外移，而是仅把“长且未命中缓存”的 prefill 卸载到计算密集集群，短请求仍走本地 PD 路径；产生的 KVCache 经普通以太网传回 decode 集群。该设计反映系统现实：分离 prefill 的动机强烈，但混合模型的 KVCache 仍没便宜到可以“无脑”搬运；关键在于选择性卸载，把跨集群带宽集中用在“prefill 加速收益最大”的长请求上，避免短请求挤占窄链路。

要让设计落地，还需直面剩余系统挑战的调度与缓存管理。鉴于 KVCache 缩小后带宽依旧受限，PrfaaS 采用“长度阈值路由”只搬长请求、“带宽感知调度”在拥塞前响应链路波动，以及“全局 KVCache 管理器+混合前缀缓存池”综合考量请求长度、缓存位置与跨集群带宽。这些机制使跨集群异构服务在生产环境可行：无需异构加速器共享低延迟 RDMA，即可让算力型 prefill 与带宽型 decode 在松耦合集群、机房乃至地域间独立伸缩。

该灵活性直接解决实践中难以调和的部署约束：加速器类别不共位、云区域硬件不对称、 opportunistic 远程容量等。我们用内部 1T 参数混合模型（Kimi Linear 架构[26]）进行案例评估：PrfaaS 异构部署（独立长上下文 prefill 集群 + 常规 PD 集群负责 decode 与短 prefill）相比同构 PD 基线与朴素异构基线分别提升 54% 与 32% 的吞吐，每机消耗的跨数据中心带宽仅 modest。结果证明：KVCache 高效的模型架构是跨数据中心异构服务的必要但不充分条件；真正让部署实用的是“模型侧 KV 减量”与“系统侧选择性卸载+带宽感知调度”的结合，二者共同把跨数据中心 PD 分离从美好想法变成可落地的服务架构。

## 2 背景

### 2.1 传统 PD 分离的“带宽墙”

Prefill-decode（PD）分离已成为大规模 LLM 服务的标准抽象，因为它清晰切分了推理中两个阶段：prefill 重算力，decode 重内存带宽。分离可提升利用率并允许阶段专属优化，但并非零成本。一旦 prefill 与 decode 位于不同节点，每份请求都需把 KVCache 从 prefill 端运往 decode 端，把原本芯片内的状态切换变成跨节点传输。实践中，这一运输需求把当今 PD 部署牢牢锁在单一数据中心、绑在 RDMA 级 scale-out 网络上。

表 1：代表性模型配置。A 类为线性复杂度块，B 类为二次复杂度全注意力块。  

在延迟敏感的服务约束下，prefill 产生的 KVCache 可异步外发以最大化算力利用率。为避免 GPU 空转，prefill 集群的出口带宽 *B*<sub>out</sub> 必须超过该集群产生 KVCache 的总速率。由于总速率与实例数线性相关，约束最终落到单实例的“KV 吞吐”上，定义为  

Φ<sub>kv</sub>(*l*) = *S*<sub>kv</sub>(*l*) / *T*<sub>prefill</sub>(*l*)， (1)  

其中 *S*<sub>kv</sub>(*l*) 为长度 *l* 请求的 KVCache 大小，*T*<sub>prefill</sub>(*l*) 为对应 prefill 延迟。该指标高度依赖模型架构。对传统稠密注意力架构，这一运输需求是主导系统约束。标准 Transformer 注意力下，KVCache 随上下文线性增长，可达数十 GB。图 2 给出稠密模型 MiniMax-M2.5（带 GQA）在不同输入长度下的 KV 吞吐：32K 请求单实例产生约 60 Gbps KVCache，远超典型机器跨数据中心以太网容量。这正是传统 PD 分离仍被绑在紧耦合网络域的根本原因——网络预算太大，跨松散互联甚至跨机房根本不可行。

这一网络耦合也阻碍了异构服务的干净扩展。各阶段已有专用芯片：Rubin CPX 瞄准 prefill 吞吐，LPU 类设计瞄准 decode 带宽。然而高性能互联与机框形态、部署环境强绑定，把异构硬件连到 RDMA 级带宽通常需定制工程。更糟的是，一旦异构硬件被塞进单一紧耦合集群，系统便继承固定的 prefill/decode 硬件比例。生产流量中，请求混合比、流量、前缀缓存命中率持续波动， pipeline 一侧必然过配、另一侧成瓶颈。同构集群里，任何机器都可在 prefill/decode 间动态切换；异构集群无此灵活性：专用于 prefill 的芯片无法跑 decode，反之亦然，导致严重负载失衡与资源搁浅。结果是运维复杂度升高，异构 PD 在真实高吞吐场景落地寥寥。

见题注  
图 2：MiniMax-M2.5 在 8×H200 实例上不同输入长度的 KV 吞吐。  

表 2：不同注意力机制的 prefill 延迟与 KV 吞吐特性（越低越好）。

### 2.2 混合注意力改变 PD 部署边界

表 3：不同输入长度下的 KV 吞吐 Φ<sub>kv</sub>（Gbps）。所有模型在 8×H200 上使用 SGLang v0.5.9 测试。  

改变这一局面的不是新调度器，而是模型架构本身。随着 LLM 走向更长上下文，传统 MHA 成本难以为继，行业全面转向 KVCache 友好设计。表 2 按 prefill 延迟 *T*<sub>prefill</sub> 与 KV 吞吐 Φ<sub>kv</sub> 两个维度对主流注意力改进分类。长上下文下，GQA、MLA 等全注意力机制仍保持二次复杂度，prefill 成本高；稀疏注意力[6] 减少计算量、可降低 prefill 延迟，但仍需把随序列长度增长的 KVCache 传给 decode 实例，KV 吞吐仍是瓶颈。相反，线性注意力与 SWA 保持线性计算成本，且状态有界，显著降低 KV 吞吐。