UniPool:一种用于混合专家模型的全球共享专家池
摘要
UniPool 为混合专家(MoE)模型引入了一种共享专家池架构,在降低参数随深度增长的同时,相较于标准 MoE 基线提高了效率和性能。
查看缓存全文
缓存时间: 2026/05/08 07:23
论文页 - UniPool: 用于混合专家模型的全球共享专家池
来源: https://huggingface.co/papers/2605.06665
摘要
UniPool 为混合专家(Mixture-of-Experts, MoE)模型引入了一种共享专家池架构,通过平衡训练和稳定的路由机制,在减少参数随深度增长的同时,保持或提升性能。
现代混合专家(Mixture-of-Experts)(MoE)架构通过严格的逐层规则分配专家容量(expert capacity)(per-layer rule):每个 Transformer 层都拥有独立的专家集。这种惯例将深度缩放(depth scaling)与线性专家参数增长(expert-parameter growth)耦合在一起,并假设每一层都需要隔离的专家容量(expert capacity)。然而,近期的分析以及我们的路由探针挑战了这一分配规则:在多个生产级 MoE 模型中,将较深层的 learned top-k 路由(top-k router)替换为均匀随机路由(uniform random routing),下游准确率仅下降 1.0-1.6 个百分点。受这种冗余性的启发,我们提出了 UniPool,这是一种 MoE 架构,它将专家容量(expert capacity)视为全局架构预算,通过用独立的逐层路由器访问的单个共享池(shared pool)取代逐层专家所有权来实现。为了在共享环境下实现稳定且平衡的训练,我们引入了一种池级辅助损失(auxiliary loss),以平衡整个池中的专家利用率,并采用 NormRouter(NormRouter)以提供针对共享专家池的稀疏且尺度稳定的路由(scale-stable routing)。在基于 Pile 数据集的 300 亿 token 上训练的五个 LLaMA 架构模型规模(1.82 亿、4.69 亿、6.50 亿、8.30 亿和 9.78 亿参数)中,UniPool 一致地改善了验证损失(validation loss)和困惑度(perplexity),优于匹配的普通 MoE 基线模型。在这些规模中,UniPool 将验证损失(validation loss)相对于普通 MoE 最多降低了 0.0386。除了原始损失的改进外,我们的结果将池大小(pool size)确定为明确的深度缩放超参数:使用普通专家参数预算 41.6%-66.7% 的缩减池 UniPool 变体,在测试的规模下匹配或超越了逐层 MoE 模型。这表明,在共享池设计下,专家参数无需随深度线性增长;它们可以次线性增长,同时比普通 MoE 更高效、更有效。进一步的分析显示,UniPool 的优势可以与更细粒度的专家分解相结合。
查看 arXiv 页面 (https://arxiv.org/abs/2605.06665) 查看 PDF (https://arxiv.org/pdf/2605.06665) GitHub3 (https://github.com/Centaurus-Alpha/UniPool) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.06665)
在您的 Agent 中获取此论文:
hf papers read 2605\.06665
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
没有链接到此论文的模型
在模型 README.md 中引用 arxiv.org/abs/2605.06665 以从此页链接它。
引用此论文的数据集 0
没有链接到此论文的数据集
在数据集 README.md 中引用 arxiv.org/abs/2605.06665 以从此页链接它。
引用此论文的 Spaces 0
没有链接到此论文的 Space
在 Space README.md 中引用 arxiv.org/abs/2605.06665 以从此页链接它。
包含此论文的收藏集 0
没有包含此论文的收藏集
将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页链接它。
相似文章
ConMoE: 基于原型重分配的专家池整合实现MoE压缩
ConMoE提出了一种无需训练的混合专家模型压缩框架,通过选择一部分专家作为可重用原型,并确定性地将原始专家调用重新映射到这些原型,从而在不更新权重或微调的情况下减少内存占用。
EMO:用于涌现模块化的专家混合模型预训练
EMO 是一种专家混合模型(Mixture-of-Experts),通过将相似领域的词元与共享专家分组实现模块化部署,在保持与标准 MoE 相当的性能的同时,支持显著的专家剪枝(保留 25% 的专家即可保留 99% 的性能)且不会导致性能下降。
混合专家模型中的涌现式模块化(8 分钟阅读)
Ai2 发布了 EMO,一个 14B 参数的混合专家语言模型,训练用于发展涌现式模块化。它允许在特定任务中使用一小部分专家,同时保持接近全模型性能。
如何扩展混合专家模型:从muP到最大化尺度稳定参数化
本文为混合专家(MoE)架构提出了一套具有理论基础的缩放理论,引入了最大化尺度稳定参数化(MSSP),确保在宽度、深度、专家宽度和专家数量上的稳定训练和超参数迁移,并通过实验验证。
XPERT:通过专家知识迁移实现语言模型的高效训练
本文介绍了 XPERT,这是一个从预训练混合专家(MoE)语言模型中提取和复用专家知识的框架,旨在提高下游模型的训练效率和性能。