分解推理中的无政府代价

Hugging Face Daily Papers 论文

摘要

本文对分解推理架构进行了博弈论分析,该架构将预填充和解码阶段分离到不同的 GPU 池中,揭示了 GPU 饱和如何影响性能。作者提出了一种自适应控制器,可实时检测饱和状态转换并调整路由参数,在 NVIDIA B200 集群的实验中将无政府代价显著降低。

分解推理架构将预填充和解码阶段物理分离到不同的 GPU 池中,从而产生共享固定硬件预算的竞争性“代理”。据我们所知,我们首次对该架构进行了正式的博弈论分析,并以 NVIDIA Dynamo 作为具体案例研究。我们将分解服务建模为三个耦合博弈:预填充池与解码池之间的两人资源博弈、分层 KV 缓存上的自私缓存博弈,以及具有请求路由正外部性的拥塞博弈。我们对后两个博弈进行了实证验证;P/D 资源博弈则通过解析方法处理(第 9.2 节)。我们刻画了 GPU 饱和如何引发状态转换,从而改变博弈的收益结构:在饱和以下,自私行为具有有界的无政府代价(PoA);在饱和时,超线性延迟和缓存外部性使得我们的经验估计器 PoA-hat(定义见第 6.4 节)上升。基于此分析,我们设计了一个自适应控制器,实时检测饱和转换并相应调整路由参数,从缓存亲和性利用转向负载均衡的拥塞避免。我们在一个 3 节点 NVIDIA B200 集群上实例化该框架,运行 Dynamo 并使用两个模型:Nemotron-4-340B(TP=8,全节点工作器带跨 InfiniBand KV 传输)和 Llama-3.1-70B(TP=4),在两个模型上均发现了相同的三阶段 PoA-hat 结构,且首个拐点后网格点一致(C=128)。自适应路由将每个模型转移到更优的工作点。我们最强的结果出现在 70B 1P/5D 拓扑上,在饱和阶段,PoA-hat 降低了 3.1 倍(从 66.4 降至 21.5),吞吐量成本为 13%。在 70B 1P/2D 上,PoA-hat 降低了 2.2 倍,TTFT P99 降低了 7.6 倍(参见第 8.5 节)。
查看原文
查看缓存全文

缓存时间: 2026/06/17 15:52

论文页面 - 分离式推理中的无政府代价

来源:https://huggingface.co/papers/2606.17081

摘要

分离式推理架构将预填充和解码阶段分配到不同的 GPU 池中,博弈论分析刻画了 GPU 饱和如何通过状态转移和收益结构变化影响系统性能,从而使得自适应控制器能够优化路由并降低延迟。

分离式推理(https://huggingface.co/papers?q=Disaggregated%20inference)架构将预填充阶段和解码阶段(https://huggingface.co/papers?q=decode%20phase)物理分配到不同的 GPU 池(https://huggingface.co/papers?q=GPU%20pools)上,形成了多个共享固定硬件预算的竞争“智能体”。我们首次对这种架构进行了正式的博弈论分析(https://huggingface.co/papers?q=game-theoretic%20analysis),并以 NVIDIA Dynamo(https://huggingface.co/papers?q=NVIDIA%20Dynamo)作为具体案例进行研究。我们将分离式服务建模为三个耦合的博弈:一个关于预填充和解码池的双玩家资源博弈、一个关于分层 KV 缓存(https://huggingface.co/papers?q=KV%20cache)的自私缓存博弈,以及一个具有正外部性的请求路由拥塞博弈(https://huggingface.co/papers?q=congestion%20game)。我们对后两个博弈进行了实证验证;P/D 资源博弈则通过分析方式处理(第 9.2 节)。我们刻画了 GPU 饱和如何引发状态转移,从而改变博弈的收益结构:在饱和以下,自私行为具有有界的无政府代价(Price of Anarchy,PoA)(https://huggingface.co/papers?q=Price%20of%20Anarchy);在饱和时,超线性延迟和缓存外部性推动我们的经验估计量 PoA-hat(定义于第 6.4 节)上升。基于此分析,我们设计了一个自适应控制器(https://huggingface.co/papers?q=adaptive%20controller),能够实时检测饱和状态转移(https://huggingface.co/papers?q=saturation%20transitions)并相应调整路由参数(https://huggingface.co/papers?q=routing%20parameters),从利用缓存亲和性转向负载均衡的拥塞避免。我们在一个由三节点 NVIDIA B200 集群(运行 Dynamo,使用两种模型:Nemotron-4-340B(TP=8,全节点工作器,支持跨 InfiniBand KV 传输)和 Llama-3.1-70B(TP=4))上实例化了我们的框架,并发现两个模型均呈现相同的三阶段 PoA-hat 结构,且第一个拐点后的网格点相同(C=128)。自适应路由将每个模型转移到了更优的操作点。我们最强的结果体现在 70B 1P/5D 拓扑中,在饱和阶段 PoA-hat 下降了 3.1 倍(从 66.4 降至 21.5),吞吐量(https://huggingface.co/papers?q=throughput)代价为 13%。在 70B 1P/2D 上,PoA-hat 下降了 2.2 倍,TTFT P99(https://huggingface.co/papers?q=TTFT%20P99)下降了 7.6 倍(详见第 8.5 节)。

查看 arXiv 页面(https://arxiv.org/abs/2606.17081)查看 PDF(https://arxiv.org/pdf/2606.17081)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.17081)

在您的智能体中获取此论文:

hf papers read 2606.17081

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

尚无模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2606.17081 即可从本页面链接。

引用此论文的数据集 0

尚无数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.17081 即可从本页面链接。

引用此论文的 Spaces 0

尚无 Space 链接到此论文

在 Space README.md 中引用 arxiv.org/abs/2606.17081 即可从本页面链接。

包含此论文的收藏 1

相似文章

推理的变革(阅读时长约 8 分钟)

TLDR AI

本文分析了 Cerebras 即将进行的 IPO,将其视为 AI 硬件领域“推理变革”的信号。文章指出,尽管 Nvidia 在基于 GPU 的训练领域占据主导地位,但为了支持推理工作负载,AI 算力的未来正变得越来越异构。

AI经济学 第二部分(11分钟阅读)

TLDR AI

本文分析了AI的经济学,聚焦于GPU资源的争夺战,将人类推理的尖峰负载与智能体连续工作负载进行对比,并认为当前基础设施是为人类使用而优化的,而非要求更高的智能体推理。