分解推理中的无政府代价
摘要
本文对分解推理架构进行了博弈论分析,该架构将预填充和解码阶段分离到不同的 GPU 池中,揭示了 GPU 饱和如何影响性能。作者提出了一种自适应控制器,可实时检测饱和状态转换并调整路由参数,在 NVIDIA B200 集群的实验中将无政府代价显著降低。
查看缓存全文
缓存时间: 2026/06/17 15:52
论文页面 - 分离式推理中的无政府代价
来源:https://huggingface.co/papers/2606.17081
摘要
分离式推理架构将预填充和解码阶段分配到不同的 GPU 池中,博弈论分析刻画了 GPU 饱和如何通过状态转移和收益结构变化影响系统性能,从而使得自适应控制器能够优化路由并降低延迟。
分离式推理(https://huggingface.co/papers?q=Disaggregated%20inference)架构将预填充阶段和解码阶段(https://huggingface.co/papers?q=decode%20phase)物理分配到不同的 GPU 池(https://huggingface.co/papers?q=GPU%20pools)上,形成了多个共享固定硬件预算的竞争“智能体”。我们首次对这种架构进行了正式的博弈论分析(https://huggingface.co/papers?q=game-theoretic%20analysis),并以 NVIDIA Dynamo(https://huggingface.co/papers?q=NVIDIA%20Dynamo)作为具体案例进行研究。我们将分离式服务建模为三个耦合的博弈:一个关于预填充和解码池的双玩家资源博弈、一个关于分层 KV 缓存(https://huggingface.co/papers?q=KV%20cache)的自私缓存博弈,以及一个具有正外部性的请求路由拥塞博弈(https://huggingface.co/papers?q=congestion%20game)。我们对后两个博弈进行了实证验证;P/D 资源博弈则通过分析方式处理(第 9.2 节)。我们刻画了 GPU 饱和如何引发状态转移,从而改变博弈的收益结构:在饱和以下,自私行为具有有界的无政府代价(Price of Anarchy,PoA)(https://huggingface.co/papers?q=Price%20of%20Anarchy);在饱和时,超线性延迟和缓存外部性推动我们的经验估计量 PoA-hat(定义于第 6.4 节)上升。基于此分析,我们设计了一个自适应控制器(https://huggingface.co/papers?q=adaptive%20controller),能够实时检测饱和状态转移(https://huggingface.co/papers?q=saturation%20transitions)并相应调整路由参数(https://huggingface.co/papers?q=routing%20parameters),从利用缓存亲和性转向负载均衡的拥塞避免。我们在一个由三节点 NVIDIA B200 集群(运行 Dynamo,使用两种模型:Nemotron-4-340B(TP=8,全节点工作器,支持跨 InfiniBand KV 传输)和 Llama-3.1-70B(TP=4))上实例化了我们的框架,并发现两个模型均呈现相同的三阶段 PoA-hat 结构,且第一个拐点后的网格点相同(C=128)。自适应路由将每个模型转移到了更优的操作点。我们最强的结果体现在 70B 1P/5D 拓扑中,在饱和阶段 PoA-hat 下降了 3.1 倍(从 66.4 降至 21.5),吞吐量(https://huggingface.co/papers?q=throughput)代价为 13%。在 70B 1P/2D 上,PoA-hat 下降了 2.2 倍,TTFT P99(https://huggingface.co/papers?q=TTFT%20P99)下降了 7.6 倍(详见第 8.5 节)。
查看 arXiv 页面(https://arxiv.org/abs/2606.17081)查看 PDF(https://arxiv.org/pdf/2606.17081)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.17081)
在您的智能体中获取此论文:
hf papers read 2606.17081
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
尚无模型链接到此论文
在模型 README.md 中引用 arxiv.org/abs/2606.17081 即可从本页面链接。
引用此论文的数据集 0
尚无数据集链接到此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.17081 即可从本页面链接。
引用此论文的 Spaces 0
尚无 Space 链接到此论文
在 Space README.md 中引用 arxiv.org/abs/2606.17081 即可从本页面链接。
包含此论文的收藏 1
相似文章
推理的变革(阅读时长约 8 分钟)
本文分析了 Cerebras 即将进行的 IPO,将其视为 AI 硬件领域“推理变革”的信号。文章指出,尽管 Nvidia 在基于 GPU 的训练领域占据主导地位,但为了支持推理工作负载,AI 算力的未来正变得越来越异构。
AI经济学 第二部分(11分钟阅读)
本文分析了AI的经济学,聚焦于GPU资源的争夺战,将人类推理的尖峰负载与智能体连续工作负载进行对比,并认为当前基础设施是为人类使用而优化的,而非要求更高的智能体推理。
@kazukifujii: 樱花互联网的Michishita-san的文章全面总结了LLM推理,强烈推荐。它涵…
本文总结了Junda Chen关于LLM分解推理的演讲,解释了为什么goodput(满足延迟SLO的吞吐量)比原始吞吐量更重要,以及分离预填充和解码阶段如何提升性能。文章还强调了其对NVIDIA Dynamo的影响。
@robertnishihara: 关于PD分离的一些直觉——PD不会加速预填充,实际上可能损害TTFT——PD的真正…
这篇来自Anyscale的博客文章解释了LLM服务中Prefill-Decode(PD)分离的直觉,展示了如何将预填充和解码阶段分配到专用GPU上,在使用Ray和vLLM的AMD MI325X上实现高达2.7倍的有效吞吐量提升和67%的成本节省,同时也讨论了PD分离何时没有帮助。
用粗略估算进行大规模推理成本分析(13分钟阅读)
一篇技术指南,展示如何使用简单的粗略估算来估计大规模服务AI模型的成本,涵盖GPU带宽、矩阵乘法、令牌定价和用户容量。