nvidia-dynamo

#nvidia-dynamo

@kazukifujii: 樱花互联网的Michishita-san的文章全面总结了LLM推理，强烈推荐。它涵…

X AI KOLs Timeline ↗ · 昨天缓存

本文总结了Junda Chen关于LLM分解推理的演讲，解释了为什么goodput（满足延迟SLO的吞吐量）比原始吞吐量更重要，以及分离预填充和解码阶段如何提升性能。文章还强调了其对NVIDIA Dynamo的影响。

0 人收藏 0 人点赞

#nvidia-dynamo

Hugging Face Daily Papers ↗ · 2026-06-11 缓存

本文对分解推理架构进行了博弈论分析，该架构将预填充和解码阶段分离到不同的 GPU 池中，揭示了 GPU 饱和如何影响性能。作者提出了一种自适应控制器，可实时检测饱和状态转换并调整路由参数，在 NVIDIA B200 集群的实验中将无政府代价显著降低。

0 人收藏 0 人点赞