@CyrusHakha:我们在大规模服务LLM的客户中反复看到一种模式:预填充-解码分离常被当作一根魔杖……

X AI KOLs Following 新闻

摘要

基于客户模式,讨论大规模LLM服务中预填充-解码分离的微妙现实,并在AMD + vLLM上进行了验证。

我们在大规模服务LLM的客户中反复看到一种模式: 预填充-解码分离常被当作一根魔杖。但现实更为微妙。 因此,我们总结了PD何时有效、何时无效的核心见解,并在AMD + vLLM上进行了验证——在该平台上,PD路径的探索尚不充分。
查看原文
查看缓存全文

缓存时间: 2026/06/15 23:08

我们在与大规模部署LLM的客户中反复见到一个模式:

Prefill-decode分离(PD)常被当作一根魔法棒。但现实要更复杂。

因此,我们整理了PD何时有效、何时无效的核心洞见,并在AMD + vLLM上验证了它们——而PD路径在这条线上远未被充分探索。

2/ 本文中,我们在AMD MI325X上使用Ray Serve + vLLM对PD进行了基准测试。 在Qwen3-235B和DeepSeek-V3负载下,PD实现了最高2.7倍的良好吞吐量提升以及高达67%的计算成本降低。但仅适用于合适的场景:

3/ 第一个洞见:PD不会让预填更快。 PD在预填和解码工作节点之间增加了一个KV传输步骤。这意味着即使吞吐量提高,TTFT(首Token延迟)也可能变差。对于严格的TTFT SLA要求,聚合推理通常更简单且更好。

4/ 第二个洞见:PD的真正优势在于TPOT(每输出Token延迟)。 在聚合推理中,预填和解码共享相同的GPU。随着负载增加,预填工作会中断解码,导致TPOT劣化。使用PD后,解码运行在专用GPU上,因此TPOT在负载下保持更平稳。

5/ 第三个洞见:TPOT的节省随生成长度累积。每Token 5–10毫秒的改进看似微小。但经过数百或数千个输出token,它会变成有意义的端到端延迟和吞吐量增益。这对于推理、Agent和长文本生成至关重要。

6/ 第四个洞见:P:D比例取决于工作负载。 改变ISL(输入序列长度)/OSL(输出序列长度)、缓存命中率或目标QPS可能会改变最优划分。比例不当会使PD严格劣于聚合推理。从1:1开始,然后将GPU向瓶颈方向移动。如果能在运行时根据工作负载特征动态调整这些比例,效果更佳。

7/ 要点总结:

PD并非万能制胜法。它仅在以下情况有益:工作负载对TPOT/端到端敏感,且生成足够长使得每token的节省能够累积。当TTFT占主导、输出短或P:D比例错误时,PD可能失效。

包含直觉阐述、基准测试和可复现的AMD + Ray + vLLM配置的完整文章:

相似文章