pd-disaggregation

标签

Cards List
#pd-disaggregation

@kazukifujii: 樱花互联网的Michishita-san的文章全面总结了LLM推理,强烈推荐。它涵…

X AI KOLs Timeline · 昨天 缓存

本文总结了Junda Chen关于LLM分解推理的演讲,解释了为什么goodput(满足延迟SLO的吞吐量)比原始吞吐量更重要,以及分离预填充和解码阶段如何提升性能。文章还强调了其对NVIDIA Dynamo的影响。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈