分解推理中的无政府代价

Hugging Face Daily Papers 2026/06/11 00:00 论文

摘要

本文对分解推理架构进行了博弈论分析，该架构将预填充和解码阶段分离到不同的 GPU 池中，揭示了 GPU 饱和如何影响性能。作者提出了一种自适应控制器，可实时检测饱和状态转换并调整路由参数，在 NVIDIA B200 集群的实验中将无政府代价显著降低。

分解推理架构将预填充和解码阶段物理分离到不同的 GPU 池中，从而产生共享固定硬件预算的竞争性“代理”。据我们所知，我们首次对该架构进行了正式的博弈论分析，并以 NVIDIA Dynamo 作为具体案例研究。我们将分解服务建模为三个耦合博弈：预填充池与解码池之间的两人资源博弈、分层 KV 缓存上的自私缓存博弈，以及具有请求路由正外部性的拥塞博弈。我们对后两个博弈进行了实证验证；P/D 资源博弈则通过解析方法处理（第 9.2 节）。我们刻画了 GPU 饱和如何引发状态转换，从而改变博弈的收益结构：在饱和以下，自私行为具有有界的无政府代价（PoA）；在饱和时，超线性延迟和缓存外部性使得我们的经验估计器 PoA-hat（定义见第 6.4 节）上升。基于此分析，我们设计了一个自适应控制器，实时检测饱和转换并相应调整路由参数，从缓存亲和性利用转向负载均衡的拥塞避免。我们在一个 3 节点 NVIDIA B200 集群上实例化该框架，运行 Dynamo 并使用两个模型：Nemotron-4-340B（TP=8，全节点工作器带跨 InfiniBand KV 传输）和 Llama-3.1-70B（TP=4），在两个模型上均发现了相同的三阶段 PoA-hat 结构，且首个拐点后网格点一致（C=128）。自适应路由将每个模型转移到更优的工作点。我们最强的结果出现在 70B 1P/5D 拓扑上，在饱和阶段，PoA-hat 降低了 3.1 倍（从 66.4 降至 21.5），吞吐量成本为 13%。在 70B 1P/2D 上，PoA-hat 降低了 2.2 倍，TTFT P99 降低了 7.6 倍（参见第 8.5 节）。

查看原文

查看缓存全文

缓存时间: 2026/06/17 15:52

论文页面 - 分离式推理中的无政府代价

来源：https://huggingface.co/papers/2606.17081

摘要

分离式推理架构将预填充和解码阶段分配到不同的 GPU 池中，博弈论分析刻画了 GPU 饱和如何通过状态转移和收益结构变化影响系统性能，从而使得自适应控制器能够优化路由并降低延迟。

分离式推理（https://huggingface.co/papers?q=Disaggregated%20inference）架构将预填充阶段和解码阶段（https://huggingface.co/papers?q=decode%20phase）物理分配到不同的 GPU 池（https://huggingface.co/papers?q=GPU%20pools）上，形成了多个共享固定硬件预算的竞争“智能体”。我们首次对这种架构进行了正式的博弈论分析（https://huggingface.co/papers?q=game-theoretic%20analysis），并以 NVIDIA Dynamo（https://huggingface.co/papers?q=NVIDIA%20Dynamo）作为具体案例进行研究。我们将分离式服务建模为三个耦合的博弈：一个关于预填充和解码池的双玩家资源博弈、一个关于分层 KV 缓存（https://huggingface.co/papers?q=KV%20cache）的自私缓存博弈，以及一个具有正外部性的请求路由拥塞博弈（https://huggingface.co/papers?q=congestion%20game）。我们对后两个博弈进行了实证验证；P/D 资源博弈则通过分析方式处理（第 9.2 节）。我们刻画了 GPU 饱和如何引发状态转移，从而改变博弈的收益结构：在饱和以下，自私行为具有有界的无政府代价（Price of Anarchy，PoA）（https://huggingface.co/papers?q=Price%20of%20Anarchy）；在饱和时，超线性延迟和缓存外部性推动我们的经验估计量 PoA-hat（定义于第 6.4 节）上升。基于此分析，我们设计了一个自适应控制器（https://huggingface.co/papers?q=adaptive%20controller），能够实时检测饱和状态转移（https://huggingface.co/papers?q=saturation%20transitions）并相应调整路由参数（https://huggingface.co/papers?q=routing%20parameters），从利用缓存亲和性转向负载均衡的拥塞避免。我们在一个由三节点 NVIDIA B200 集群（运行 Dynamo，使用两种模型：Nemotron-4-340B（TP=8，全节点工作器，支持跨 InfiniBand KV 传输）和 Llama-3.1-70B（TP=4））上实例化了我们的框架，并发现两个模型均呈现相同的三阶段 PoA-hat 结构，且第一个拐点后的网格点相同（C=128）。自适应路由将每个模型转移到了更优的操作点。我们最强的结果体现在 70B 1P/5D 拓扑中，在饱和阶段 PoA-hat 下降了 3.1 倍（从 66.4 降至 21.5），吞吐量（https://huggingface.co/papers?q=throughput）代价为 13%。在 70B 1P/2D 上，PoA-hat 下降了 2.2 倍，TTFT P99（https://huggingface.co/papers?q=TTFT%20P99）下降了 7.6 倍（详见第 8.5 节）。

查看 arXiv 页面（https://arxiv.org/abs/2606.17081）查看 PDF（https://arxiv.org/pdf/2606.17081）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.17081）

在您的智能体中获取此论文：

hf papers read 2606.17081

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

尚无模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2606.17081 即可从本页面链接。

引用此论文的数据集 0

尚无数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.17081 即可从本页面链接。

引用此论文的 Spaces 0

尚无 Space 链接到此论文

在 Space README.md 中引用 arxiv.org/abs/2606.17081 即可从本页面链接。

分解推理中的无政府代价

论文页面 - 分离式推理中的无政府代价

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的收藏 1

相似文章

推理的变革（阅读时长约 8 分钟）

AI经济学第二部分（11分钟阅读）

@kazukifujii: 樱花互联网的Michishita-san的文章全面总结了LLM推理，强烈推荐。它涵…

@robertnishihara: 关于PD分离的一些直觉——PD不会加速预填充，实际上可能损害TTFT——PD的真正…

用粗略估算进行大规模推理成本分析（13分钟阅读）

提交意见反馈

论文页面 - 分离式推理中的无政府代价

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的收藏 1

相似文章

推理的变革（阅读时长约 8 分钟）

AI经济学 第二部分（11分钟阅读）

@kazukifujii: 樱花互联网的Michishita-san的文章全面总结了LLM推理，强烈推荐。它涵…

@robertnishihara: 关于PD分离的一些直觉——PD不会加速预填充，实际上可能损害TTFT——PD的真正…

用粗略估算进行大规模推理成本分析（13分钟阅读）

提交意见反馈

AI经济学第二部分（11分钟阅读）