专家联邦:面向大语言模型的高效通信分布式推理
摘要
专家联邦(FoE)将混合专家模块重组为独立处理KV头的集群,消除了节点间通信瓶颈,在保持生成质量的同时,将推理吞吐量和延迟提升高达5.2倍。
查看缓存全文
缓存时间: 2026/05/15 00:21
论文页面 - 专家联邦:面向大型语言模型的高效分布式推理
来源:https://huggingface.co/papers/2605.06206
摘要
专家联邦将混合专家模块重组为独立处理KV头的集群,在保持生成质量的同时消除了节点间的通信瓶颈。
混合专家(https://huggingface.co/papers?q=Mixture%20of%20experts)已成为使大型语言模型(LLM)计算高效的主要机制。然而,在分布式环境中,专家之间传输token嵌入是一个显著瓶颈。我们提出了新颖的专家联邦(FoE)架构。FoE将Transformer层(https://huggingface.co/papers?q=transformer%20layer)的MoE模块重构为多个MoE集群(https://huggingface.co/papers?q=MoE%20clusters)。每个集群只负责一个KV头(https://huggingface.co/papers?q=KV%20heads),并在这些专家之间应用专家并行(https://huggingface.co/papers?q=expert%20parallelism)。集群之间通过求和操作同步注意力后的残差,从而驱动下一个MoE块的路由(https://huggingface.co/papers?q=routing)和分发(https://huggingface.co/papers?q=dispatch)。在单节点设置(https://huggingface.co/papers?q=single-node%20setting)下,由于组内所有专家位于同一GPU上,FoE完全消除了全到全通信(https://huggingface.co/papers?q=all-to-all%20communication)。在多节点设置(https://huggingface.co/papers?q=multi-node%20setting)下,FoE将全到全通信(https://huggingface.co/papers?q=all-to-all%20communication)限制在节点内网络,从而显著降低通信开销。FoE的实现表明,在LongBench(https://huggingface.co/papers?q=LongBench)上,FoE在单节点和多节点设置(https://huggingface.co/papers?q=multi-node%20setting)下均显著提升了推理吞吐量(https://huggingface.co/papers?q=inference%20throughput)和延迟(https://huggingface.co/papers?q=latency),将端到端前向传播延迟(https://huggingface.co/papers?q=latency)降低了高达5.2倍,TTFT(https://huggingface.co/papers?q=TTFT)降低了3.62倍,TBT(https://huggingface.co/papers?q=TBT)降低了1.95倍。同时,其生成质量与相同规模和训练配置的混合专家(https://huggingface.co/papers?q=mixture%20of%20experts)模型相当。
查看arXiv页面(https://arxiv.org/abs/2605.06206)查看PDF(https://arxiv.org/pdf/2605.06206)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.06206)
在你的agent中获取这篇论文:
hf papers read 2605\.06206
没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型关联此论文
在模型README.md中引用arxiv.org/abs/2605.06206以从本页链接。
引用此论文的数据集0
没有数据集关联此论文
在数据集README.md中引用arxiv.org/abs/2605.06206以从本页链接。
引用此论文的空间0
没有空间关联此论文
在空间README.md中引用arxiv.org/abs/2605.06206以从本页链接。
包含此论文的收藏集0
没有收藏集包含此论文
将此论文添加到一个收藏集(https://huggingface.co/new-collection)以从本页链接。
相似文章
Mix-MoE:通过混合专家混合提升大语言模型的多语言机器翻译
Mix-MoE提出了一种混合专家混合框架,通过专门的专家组和傅里叶变换增强的路由机制来缓解多语言机器翻译中的参数干扰,相比基线方法取得了显著改进。
XPERT:通过专家知识迁移实现语言模型的高效训练
本文介绍了 XPERT,这是一个从预训练混合专家(MoE)语言模型中提取和复用专家知识的框架,旨在提高下游模型的训练效率和性能。
少即是MoE:裁剪领域专用语言模型中的专家
本文介绍了Fisher-MoE,一种通过使用Fisher重要性裁剪FFN层中间维度来压缩混合专家模型的方法,实现了45%的权重内存减少和21%的吞吐量提升,且未造成显著的能力损失。
@rohanpaul_ai: 大型MoE模型可能浪费了一半的专家计算资源在几乎不需要专家帮助的token上。本文中50%的e…
一种名为Zero-Expert Self-Distillation Adaptation (ZEDA)的新方法,允许像Qwen3和GLM这样的MoE模型在简单token上跳过一半的专家计算,而精度损失极小,通过添加输出为空的虚拟专家,实现约20%的推理加速。
Transformer 中的专家混合模型 (MoEs)
Hugging Face 的博客文章,介绍 Transformer 中的专家混合模型 (MoEs) 架构,涵盖从密集模型到稀疏模型的转变、权重加载优化、专家并行计算以及基于 MoE 的语言模型训练技术。