pd-disaggregation

#pd-disaggregation

@kazukifujii: 樱花互联网的Michishita-san的文章全面总结了LLM推理，强烈推荐。它涵…

X AI KOLs Timeline ↗ · 昨天缓存

本文总结了Junda Chen关于LLM分解推理的演讲，解释了为什么goodput（满足延迟SLO的吞吐量）比原始吞吐量更重要，以及分离预填充和解码阶段如何提升性能。文章还强调了其对NVIDIA Dynamo的影响。

0 人收藏 0 人点赞