UniPool：一种用于混合专家模型的全球共享专家池

Hugging Face Daily Papers 2026/05/07 00:00 论文

摘要

UniPool 为混合专家（MoE）模型引入了一种共享专家池架构，在降低参数随深度增长的同时，相较于标准 MoE 基线提高了效率和性能。

现代混合专家（MoE）架构通过严格的逐层规则分配专家容量：每个 Transformer 层拥有独立的专家集。这一惯例将深度扩展与专家参数的线性增长耦合在一起，并假设每一层都需要隔离的专家容量。然而，最近的分析和我们的路由探测挑战了这一分配规则：在多个生产级 MoE 模型中，将深层网络的 learned top-k 路由器替换为均匀随机路由，下游准确率仅下降 1.0-1.6 个点。受这种冗余性的启发，我们提出了 UniPool，这是一种将专家容量视为全局架构预算的 MoE 架构，用单层独立路由器访问的单一共享池取代了每层的专家所有权。为了实现共享下的稳定且均衡的训练，我们引入了池级辅助损失以平衡整个池中的专家利用率，并采用 NormRouter 以提供稀疏且规模稳定的路由，将其引入共享专家池。在基于 Pile 数据集的 300 亿 token 上训练的五个 LLaMA 架构模型规模（1.82 亿、4.69 亿、6.5 亿、8.3 亿和 9.78 亿参数）中，UniPool 始终在验证损失和困惑度方面优于匹配的普通 MoE 基线。在这些规模下，与普通 MoE 相比，UniPool 将验证损失降低了多达 0.0386。除了原始损失的改进外，我们的结果将池大小确定为显式的深度扩展超参数：使用仅占普通专家参数预算 41.6%-66.7% 的减少池 UniPool 变体，在测试规模下匹配或超越了逐层 MoE 的性能。这表明，在共享池设计下，专家参数无需随深度线性增长；它们可以次线性增长，同时比普通 MoE 更高效、更有效。进一步的分析表明，UniPool 的优势可与更细粒度的专家分解相结合。

查看原文

查看缓存全文

缓存时间: 2026/05/08 07:23

论文页 - UniPool: 用于混合专家模型的全球共享专家池

来源: https://huggingface.co/papers/2605.06665

摘要

UniPool 为混合专家（Mixture-of-Experts, MoE）模型引入了一种共享专家池架构，通过平衡训练和稳定的路由机制，在减少参数随深度增长的同时，保持或提升性能。

现代混合专家（Mixture-of-Experts）（MoE）架构通过严格的逐层规则分配专家容量（expert capacity）（per-layer rule）：每个 Transformer 层都拥有独立的专家集。这种惯例将深度缩放（depth scaling）与线性专家参数增长（expert-parameter growth）耦合在一起，并假设每一层都需要隔离的专家容量（expert capacity）。然而，近期的分析以及我们的路由探针挑战了这一分配规则：在多个生产级 MoE 模型中，将较深层的 learned top-k 路由（top-k router）替换为均匀随机路由（uniform random routing），下游准确率仅下降 1.0-1.6 个百分点。受这种冗余性的启发，我们提出了 UniPool，这是一种 MoE 架构，它将专家容量（expert capacity）视为全局架构预算，通过用独立的逐层路由器访问的单个共享池（shared pool）取代逐层专家所有权来实现。为了在共享环境下实现稳定且平衡的训练，我们引入了一种池级辅助损失（auxiliary loss），以平衡整个池中的专家利用率，并采用 NormRouter（NormRouter）以提供针对共享专家池的稀疏且尺度稳定的路由（scale-stable routing）。在基于 Pile 数据集的 300 亿 token 上训练的五个 LLaMA 架构模型规模（1.82 亿、4.69 亿、6.50 亿、8.30 亿和 9.78 亿参数）中，UniPool 一致地改善了验证损失（validation loss）和困惑度（perplexity），优于匹配的普通 MoE 基线模型。在这些规模中，UniPool 将验证损失（validation loss）相对于普通 MoE 最多降低了 0.0386。除了原始损失的改进外，我们的结果将池大小（pool size）确定为明确的深度缩放超参数：使用普通专家参数预算 41.6%-66.7% 的缩减池 UniPool 变体，在测试的规模下匹配或超越了逐层 MoE 模型。这表明，在共享池设计下，专家参数无需随深度线性增长；它们可以次线性增长，同时比普通 MoE 更高效、更有效。进一步的分析显示，UniPool 的优势可以与更细粒度的专家分解相结合。

查看 arXiv 页面 (https://arxiv.org/abs/2605.06665) 查看 PDF (https://arxiv.org/pdf/2605.06665) GitHub3 (https://github.com/Centaurus-Alpha/UniPool) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.06665)

在您的 Agent 中获取此论文：

hf papers read 2605\.06665

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有链接到此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.06665 以从此页链接它。

引用此论文的数据集 0

没有链接到此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.06665 以从此页链接它。

引用此论文的 Spaces 0

没有链接到此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.06665 以从此页链接它。

包含此论文的收藏集 0

没有包含此论文的收藏集

将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页链接它。

UniPool：一种用于混合专家模型的全球共享专家池

论文页 - UniPool: 用于混合专家模型的全球共享专家池

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的收藏集 0

相似文章

ConMoE: 基于原型重分配的专家池整合实现MoE压缩

EMO：用于涌现模块化的专家混合模型预训练

混合专家模型中的涌现式模块化（8 分钟阅读）

如何扩展混合专家模型：从muP到最大化尺度稳定参数化

XPERT：通过专家知识迁移实现语言模型的高效训练

提交意见反馈