专家联邦：面向大语言模型的高效通信分布式推理

Hugging Face Daily Papers 2026/05/07 00:00 论文

摘要

专家联邦（FoE）将混合专家模块重组为独立处理KV头的集群，消除了节点间通信瓶颈，在保持生成质量的同时，将推理吞吐量和延迟提升高达5.2倍。

混合专家已成为使大语言模型（LLM）具备计算高效性的主要机制。然而，在分布式环境下，专家之间传输词元嵌入是一个显著的瓶颈。我们提出了新颖的专家联邦（FoE）架构。FoE将Transformer层的MoE模块重组为多个MoE集群。每个集群仅负责一个KV头，并在这些专家之间应用专家并行。集群之间通过求和同步注意力后的残差，进而驱动下一个MoE模块的路由和分发。在单节点设置中，FoE完全消除了所有All-to-All通信，因为同一组内的所有专家都位于同一GPU上。在多节点设置中，FoE将All-to-All通信限制在节点内部网络，从而显著降低了通信开销。 FoE的实现表明，在LongBench上，FoE在单节点和多节点设置中均显著提升了推理吞吐量和延迟，端到端前向传播延迟降低高达5.2倍，TTFT降低3.62倍，TBT降低1.95倍。同时，其生成质量与相同规模和训练配置的混合专家模型相当。

查看原文

查看缓存全文

缓存时间: 2026/05/15 00:21

论文页面 - 专家联邦：面向大型语言模型的高效分布式推理

来源：https://huggingface.co/papers/2605.06206

摘要

专家联邦将混合专家模块重组为独立处理KV头的集群，在保持生成质量的同时消除了节点间的通信瓶颈。

混合专家（https://huggingface.co/papers?q=Mixture%20of%20experts）已成为使大型语言模型（LLM）计算高效的主要机制。然而，在分布式环境中，专家之间传输token嵌入是一个显著瓶颈。我们提出了新颖的专家联邦（FoE）架构。FoE将Transformer层（https://huggingface.co/papers?q=transformer%20layer）的MoE模块重构为多个MoE集群（https://huggingface.co/papers?q=MoE%20clusters）。每个集群只负责一个KV头（https://huggingface.co/papers?q=KV%20heads），并在这些专家之间应用专家并行（https://huggingface.co/papers?q=expert%20parallelism）。集群之间通过求和操作同步注意力后的残差，从而驱动下一个MoE块的路由（https://huggingface.co/papers?q=routing）和分发（https://huggingface.co/papers?q=dispatch）。在单节点设置（https://huggingface.co/papers?q=single-node%20setting）下，由于组内所有专家位于同一GPU上，FoE完全消除了全到全通信（https://huggingface.co/papers?q=all-to-all%20communication）。在多节点设置（https://huggingface.co/papers?q=multi-node%20setting）下，FoE将全到全通信（https://huggingface.co/papers?q=all-to-all%20communication）限制在节点内网络，从而显著降低通信开销。FoE的实现表明，在LongBench（https://huggingface.co/papers?q=LongBench）上，FoE在单节点和多节点设置（https://huggingface.co/papers?q=multi-node%20setting）下均显著提升了推理吞吐量（https://huggingface.co/papers?q=inference%20throughput）和延迟（https://huggingface.co/papers?q=latency），将端到端前向传播延迟（https://huggingface.co/papers?q=latency）降低了高达5.2倍，TTFT（https://huggingface.co/papers?q=TTFT）降低了3.62倍，TBT（https://huggingface.co/papers?q=TBT）降低了1.95倍。同时，其生成质量与相同规模和训练配置的混合专家（https://huggingface.co/papers?q=mixture%20of%20experts）模型相当。

查看arXiv页面（https://arxiv.org/abs/2605.06206）查看PDF（https://arxiv.org/pdf/2605.06206）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.06206）

在你的agent中获取这篇论文：

hf papers read 2605\.06206

没有最新的CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型关联此论文

在模型README.md中引用arxiv.org/abs/2605.06206以从本页链接。

引用此论文的数据集0

没有数据集关联此论文

在数据集README.md中引用arxiv.org/abs/2605.06206以从本页链接。

引用此论文的空间0

没有空间关联此论文

在空间README.md中引用arxiv.org/abs/2605.06206以从本页链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到一个收藏集（https://huggingface.co/new-collection）以从本页链接。

专家联邦：面向大语言模型的高效通信分布式推理

论文页面 - 专家联邦：面向大型语言模型的高效分布式推理

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的空间0

包含此论文的收藏集0

相似文章

Mix-MoE：通过混合专家混合提升大语言模型的多语言机器翻译

XPERT：通过专家知识迁移实现语言模型的高效训练

少即是MoE：裁剪领域专用语言模型中的专家

@rohanpaul_ai: 大型MoE模型可能浪费了一半的专家计算资源在几乎不需要专家帮助的token上。本文中50%的e…

Transformer 中的专家混合模型 (MoEs)

提交意见反馈