专家联邦:面向大语言模型的高效通信分布式推理

Hugging Face Daily Papers 论文

摘要

专家联邦(FoE)将混合专家模块重组为独立处理KV头的集群,消除了节点间通信瓶颈,在保持生成质量的同时,将推理吞吐量和延迟提升高达5.2倍。

混合专家已成为使大语言模型(LLM)具备计算高效性的主要机制。然而,在分布式环境下,专家之间传输词元嵌入是一个显著的瓶颈。 我们提出了新颖的专家联邦(FoE)架构。FoE将Transformer层的MoE模块重组为多个MoE集群。每个集群仅负责一个KV头,并在这些专家之间应用专家并行。集群之间通过求和同步注意力后的残差,进而驱动下一个MoE模块的路由和分发。在单节点设置中,FoE完全消除了所有All-to-All通信,因为同一组内的所有专家都位于同一GPU上。在多节点设置中,FoE将All-to-All通信限制在节点内部网络,从而显著降低了通信开销。 FoE的实现表明,在LongBench上,FoE在单节点和多节点设置中均显著提升了推理吞吐量和延迟,端到端前向传播延迟降低高达5.2倍,TTFT降低3.62倍,TBT降低1.95倍。同时,其生成质量与相同规模和训练配置的混合专家模型相当。
查看原文
查看缓存全文

缓存时间: 2026/05/15 00:21

论文页面 - 专家联邦:面向大型语言模型的高效分布式推理

来源:https://huggingface.co/papers/2605.06206

摘要

专家联邦将混合专家模块重组为独立处理KV头的集群,在保持生成质量的同时消除了节点间的通信瓶颈。

混合专家(https://huggingface.co/papers?q=Mixture%20of%20experts)已成为使大型语言模型(LLM)计算高效的主要机制。然而,在分布式环境中,专家之间传输token嵌入是一个显著瓶颈。我们提出了新颖的专家联邦(FoE)架构。FoE将Transformer层(https://huggingface.co/papers?q=transformer%20layer)的MoE模块重构为多个MoE集群(https://huggingface.co/papers?q=MoE%20clusters)。每个集群只负责一个KV头(https://huggingface.co/papers?q=KV%20heads),并在这些专家之间应用专家并行(https://huggingface.co/papers?q=expert%20parallelism)。集群之间通过求和操作同步注意力后的残差,从而驱动下一个MoE块的路由(https://huggingface.co/papers?q=routing)和分发(https://huggingface.co/papers?q=dispatch)。在单节点设置(https://huggingface.co/papers?q=single-node%20setting)下,由于组内所有专家位于同一GPU上,FoE完全消除了全到全通信(https://huggingface.co/papers?q=all-to-all%20communication)。在多节点设置(https://huggingface.co/papers?q=multi-node%20setting)下,FoE将全到全通信(https://huggingface.co/papers?q=all-to-all%20communication)限制在节点内网络,从而显著降低通信开销。FoE的实现表明,在LongBench(https://huggingface.co/papers?q=LongBench)上,FoE在单节点和多节点设置(https://huggingface.co/papers?q=multi-node%20setting)下均显著提升了推理吞吐量(https://huggingface.co/papers?q=inference%20throughput)和延迟(https://huggingface.co/papers?q=latency),将端到端前向传播延迟(https://huggingface.co/papers?q=latency)降低了高达5.2倍,TTFT(https://huggingface.co/papers?q=TTFT)降低了3.62倍,TBT(https://huggingface.co/papers?q=TBT)降低了1.95倍。同时,其生成质量与相同规模和训练配置的混合专家(https://huggingface.co/papers?q=mixture%20of%20experts)模型相当。

查看arXiv页面(https://arxiv.org/abs/2605.06206)查看PDF(https://arxiv.org/pdf/2605.06206)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.06206)

在你的agent中获取这篇论文:

hf papers read 2605\.06206

没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型关联此论文

在模型README.md中引用arxiv.org/abs/2605.06206以从本页链接。

引用此论文的数据集0

没有数据集关联此论文

在数据集README.md中引用arxiv.org/abs/2605.06206以从本页链接。

引用此论文的空间0

没有空间关联此论文

在空间README.md中引用arxiv.org/abs/2605.06206以从本页链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到一个收藏集(https://huggingface.co/new-collection)以从本页链接。

相似文章

少即是MoE:裁剪领域专用语言模型中的专家

arXiv cs.LG

本文介绍了Fisher-MoE,一种通过使用Fisher重要性裁剪FFN层中间维度来压缩混合专家模型的方法,实现了45%的权重内存减少和21%的吞吐量提升,且未造成显著的能力损失。

Transformer 中的专家混合模型 (MoEs)

Hugging Face Blog

Hugging Face 的博客文章,介绍 Transformer 中的专家混合模型 (MoEs) 架构,涵盖从密集模型到稀疏模型的转变、权重加载优化、专家并行计算以及基于 MoE 的语言模型训练技术。