@CyrusHakha：我们在大规模服务LLM的客户中反复看到一种模式：预填充-解码分离常被当作一根魔杖……

X AI KOLs Following 2026/06/15 17:20 新闻

llm-serving prefill-decode disaggregation inference-optimization vllm amd scaling

摘要

基于客户模式，讨论大规模LLM服务中预填充-解码分离的微妙现实，并在AMD + vLLM上进行了验证。

我们在大规模服务LLM的客户中反复看到一种模式：预填充-解码分离常被当作一根魔杖。但现实更为微妙。因此，我们总结了PD何时有效、何时无效的核心见解，并在AMD + vLLM上进行了验证——在该平台上，PD路径的探索尚不充分。

查看原文

查看缓存全文

缓存时间: 2026/06/15 23:08

我们在与大规模部署LLM的客户中反复见到一个模式：

Prefill-decode分离（PD）常被当作一根魔法棒。但现实要更复杂。

因此，我们整理了PD何时有效、何时无效的核心洞见，并在AMD + vLLM上验证了它们——而PD路径在这条线上远未被充分探索。

2/ 本文中，我们在AMD MI325X上使用Ray Serve + vLLM对PD进行了基准测试。在Qwen3-235B和DeepSeek-V3负载下，PD实现了最高2.7倍的良好吞吐量提升以及高达67%的计算成本降低。但仅适用于合适的场景：

3/ 第一个洞见：PD不会让预填更快。 PD在预填和解码工作节点之间增加了一个KV传输步骤。这意味着即使吞吐量提高，TTFT（首Token延迟）也可能变差。对于严格的TTFT SLA要求，聚合推理通常更简单且更好。

4/ 第二个洞见：PD的真正优势在于TPOT（每输出Token延迟）。在聚合推理中，预填和解码共享相同的GPU。随着负载增加，预填工作会中断解码，导致TPOT劣化。使用PD后，解码运行在专用GPU上，因此TPOT在负载下保持更平稳。

5/ 第三个洞见：TPOT的节省随生成长度累积。每Token 5–10毫秒的改进看似微小。但经过数百或数千个输出token，它会变成有意义的端到端延迟和吞吐量增益。这对于推理、Agent和长文本生成至关重要。

6/ 第四个洞见：P:D比例取决于工作负载。改变ISL（输入序列长度）/OSL（输出序列长度）、缓存命中率或目标QPS可能会改变最优划分。比例不当会使PD严格劣于聚合推理。从1:1开始，然后将GPU向瓶颈方向移动。如果能在运行时根据工作负载特征动态调整这些比例，效果更佳。

7/ 要点总结：

PD并非万能制胜法。它仅在以下情况有益：工作负载对TPOT/端到端敏感，且生成足够长使得每token的节省能够累积。当TTFT占主导、输出短或P:D比例错误时，PD可能失效。

包含直觉阐述、基准测试和可复现的AMD + Ray + vLLM配置的完整文章：

相似文章