goodput

#goodput

@kazukifujii: 樱花互联网的Michishita-san的文章全面总结了LLM推理，强烈推荐。它涵…

X AI KOLs Timeline ↗ · 昨天缓存

本文总结了Junda Chen关于LLM分解推理的演讲，解释了为什么goodput（满足延迟SLO的吞吐量）比原始吞吐量更重要，以及分离预填充和解码阶段如何提升性能。文章还强调了其对NVIDIA Dynamo的影响。

0 人收藏 0 人点赞

#goodput

X AI KOLs Following ↗ · 3天前缓存

这篇来自Anyscale的博客文章解释了LLM服务中Prefill-Decode（PD）分离的直觉，展示了如何将预填充和解码阶段分配到专用GPU上，在使用Ray和vLLM的AMD MI325X上实现高达2.7倍的有效吞吐量提升和67%的成本节省，同时也讨论了PD分离何时没有帮助。

0 人收藏 0 人点赞