解耦的Mixture-of-Experts用于参数化知识注入
摘要
Decoupled Mixture-of-Experts (DMoE) 提出了一种用于参数化知识注入的模块化架构,将专家和路由器从基础模型中解耦,以实现高效的自回归推理并缓解灾难性遗忘。
arXiv:2606.14243v1 Announce Type: new
Abstract: 知识注入旨在为大语言模型(LLMs)配备外部、领域特定或时效性知识。现有方法通常在灵活性和集成性之间存在权衡:检索增强生成将知识保留在模型外部,但仅提供提示级别的增强;而基于后训练的方法将新知识编码到共享参数中,但可能导致灾难性遗忘、知识冲突和高昂的更新成本。本文提出Decoupled Mixture-of-Experts(DMoE),一种用于参数化知识注入的模块化架构,将专家和路由器从基础模型中解耦。DMoE将外部知识语料库转换为可独立更新的专家模块,并使用轻量级的不确定性感知路由器,仅在基础模型生成过程中缺乏足够知识时激活相关专家。为了支持高效的自回归推理,DMoE将专家仅附加到最后层前馈网络,在保留KV缓存重用的同时实现参数级知识增强。在知识密集型基准测试上的实验表明,DMoE在答案质量上持续优于检索和基于适配器的基线方法。
查看缓存全文
缓存时间: 2026/06/15 08:58
# 解耦混合专家用于参数化知识注入 来源:https://arxiv.org/html/2606.14243 Baoqing Yue, Weihang Su,清华大学计算机科学与技术系(同等贡献)。Qingyao Ai,清华大学计算机科学与技术系。Yichen Tang,清华大学计算机科学与技术系。Changyue Wang,清华大学计算机科学与技术系。Jiacheng Kang,清华大学计算机科学与技术系。Jingtao Zhan,清华大学计算机科学与技术系。Yiqun Liu,清华大学计算机科学与技术系。 ###### 摘要 知识注入旨在使大型语言模型(LLM)具备外部、领域特定或时间敏感的知识。现有方法通常面临灵活性与集成度之间的权衡:检索增强生成将知识保留在模型外部,但仅提供提示级别的增强;而基于后训练的方法将新知识编码到共享参数中,但可能导致灾难性遗忘、知识冲突和昂贵的更新。在本文中,我们提出解耦混合专家(DMoE),一种用于参数化知识注入的模块化架构,它将专家和路由器都与基础模型解耦。DMoE将外部知识语料库转换为可独立更新的专家模块,并使用轻量级的不确定性感知路由器,仅在基础模型生成过程中缺乏足够知识时激活相关专家。为了支持高效的自回归推理,DMoE仅将专家附加到最后一层前馈网络,从而在实现参数级知识增强的同时保留了KV缓存重用。在知识密集型基准上的实验表明,DMoE在答案质量上始终优于基于检索和适配器的方法。 解耦混合专家用于参数化知识注入 参见图1:知识注入范式的比较。RAG将知识作为外部上下文注入,而后训练则修改共享模型参数,可能引入冲突或遗忘。DMoE将知识模块与基础模型解耦,实现模块化和高效的参数化集成。## 1 引言 大型语言模型(LLM)在多种任务上展现出了强大的泛化能力(Brown等人,2020;Chowdhery等人,2023)。然而,它们的参数化知识在预训练后不可避免地是静态的。因此,LLM在领域特定或时间敏感的查询上常常失败,在推理时产生幻觉或过时的响应(Song等人,2025;Xu等人,2024)。这一局限性激发了人们对知识注入日益增长的兴趣,旨在通过推理或后训练方法使LLM具备外部知识(Ovadia等人,2023;Lauscher等人,2020;Ai等人,2025)。 如图1所示,现有的知识注入方法大致可分为基于检索和基于后训练的范式。检索增强生成(RAG)将知识保留在模型外部,并动态地用检索到的文档增强输入(Borgeaud等人,2022;Lewis等人,2020)。这种设计使得知识易于更新,因为检索语料库可以在不改变模型参数的情况下进行修改。然而,注入的知识仍停留在提示级别:它仅作为额外的上下文暴露给模型,而非集成到模型的参数空间中。因此,RAG提供了灵活但相对浅层的知识增强,且其推理效率可能受到重复检索和长上下文处理的限制。 相比之下,基于后训练的方法,包括监督微调(SFT)(Wang等人,2022;Mishra等人,2021)和参数高效变体如LoRA(Hu等人,2022),直接将新知识编码到模型参数中。虽然这实现了更深入的参数级集成,但注入的知识仍然被写入一个已存储了多种预训练知识的共享参数空间。当知识持续更新或扩展时,这种共享更新可能会干扰现有能力,引入知识冲突,或者需要随着外部语料库的变化而重复重新训练。因此,尽管基于后训练的方法比RAG更深入地集成了知识,但它们往往牺牲了模块化、更新效率和知识隔离。 这种权衡揭示了一个更深层次的架构瓶颈。大多数现有的LLM要么将知识组织为外部提示上下文,要么组织为纠缠的密集参数。这两种形式都没有提供隔离异质知识、路由到相关知识模块或在不干扰无关知识的情况下增量扩展模型的明确机制。因此,一个理想的知识注入架构应满足三个要求:应在参数级别集成知识,保持注入知识的模块化和独立可更新性,并保持高效的自回归推理。 为此,我们提出了解耦混合专家(DMoE),一种用于参数化知识注入的模块化架构。受混合专家(MoE)条件计算和专家专业化原则的启发(Jacobs等人,1991;Shazeer等人,2017;Fedus等人,2022),DMoE与传统MoE架构的不同之处在于,专家和路由器都与基础模型解耦。给定一个外部知识语料库,DMoE将语料库划分为知识单元并构建轻量级的专家模块,同时保持基础模型不变。这些专家存储在密集骨干网络之外,可以独立添加、移除或更新。在推理过程中,一个轻量级的不确定性感知路由器估计当前查询是否需要外部专家支持,并在必要时仅激活相关专家。 DMoE的一个关键设计目标是支持高效的自回归生成。朴素地将动态选择的专家附加到多个Transformer层会导致缓存重用困难,因为当在处理前缀后活跃的专家集发生变化时,缓存的键值状态将不再对应在新激活专家下产生的隐藏状态。DMoE通过将专家附加在最后一个Transformer层的注意力计算之后,具体来说是最后一层前馈网络,从而避免了这个问题。由于专家激活不会修改计算早期层键值缓存的表示,DMoE可以在自回归生成过程中重用缓存的注意力状态。因此,DMoE实现了参数级的知识增强,同时与动态检索或多层专家注入策略相比,大幅降低了推理开销。 我们在一个知识密集型基准套件上评估DMoE,重点关注答案质量和推理效率。实验结果表明,DMoE在密集模型基线上持续改进,并且与基于检索和适配器的知识注入方法相比保持竞争力。同时,DMoE通过保留KV缓存重用,显著降低了推理开销。进一步的消融研究验证了主要的架构选择:解耦专家比传统的耦合MoE变体更适合知识注入,不确定性感知路由在不同的触发阈值下保持鲁棒性,最后一层FFN附加产生了最佳的效果-效率权衡。 总结而言,我们的贡献如下: - • 我们提出了DMoE,它将知识专家和路由器与基础模型解耦,实现了模块化和独立可更新的知识注入。 - • DMoE使用不确定性感知路由来选择性激活相关专家,并将其附加到最后一层前馈网络,从而在生成过程中保留KV缓存重用。 - • 实验结果表明,DMoE在密集基线上提高了答案质量,同时以显著更低的推理开销实现了竞争性能。 ## 2 相关工作 ### 2.1 检索增强生成 检索增强生成(RAG)通过从外部存储库检索相关信息并根据检索到的上下文进行生成,将外部知识注入到LLM中(Lewis等人,2020;Dong等人,2025;Tu等人,2025;Su等人,2025b, f)。通过将知识保留在模型参数之外,RAG提供了一种灵活的机制来改进事实基础、减轻幻觉(Wang等人,2026;Su等人,2025d, 2024e;Wang等人,2025c),支持知识更新(Wang等人,2025b, a),并使LLM适应专业领域而无需完整的模型重新训练(Su等人,2024b, 2025g, 2025a, 2026a)。大多数RAG系统遵循先检索后读取的流程,其中搜索模块从大规模语料库中检索文档(Robertson等人,2009;Su等人,2024a;Fang等人,2024),然后生成器将它们用作额外的输入上下文。最近的扩展进一步探索了动态RAG(Jiang等人,2023;Su等人,2024d, c)、基于图的RAG(Edge等人,2024)、参数化RAG(Su等人,2025e, c, 2026a, 2026c)和智能体RAG(Jin等人,2025;Su等人,2026b)。尽管取得了这些进展,RAG主要是在提示级别注入知识:检索到的证据作为外部上下文暴露给模型,而非集成到其参数空间中。因此,RAG保持了高度可更新性,但提供相对浅层的知识整合,并且其推理效率可能受到重复检索和长上下文处理的限制。 ### 2.2 基于后训练的知识注入 后训练方法通过使用外部来源的数据进一步优化模型参数来注入知识。监督微调(SFT)(Mishra等人,2021;Ouyang等人,2022;Taori等人,2023)通常基于合成或人工标注的指令-响应对训练模型,从而比仅上下文增强实现更深层次的参数级知识整合。然而,直接更新基础模型的共享参数可能会干扰先前获得的知识,导致灾难性遗忘和知识冲突(Goodfellow等人,2013;Kemker等人,2018)。为了降低训练成本并限制参数干扰,参数高效微调(PEFT)方法(Houlsby等人,2019;Han等人,2024),如LoRA(Hu等人,2022)、提示调优(Lester等人,2021)和前缀调优(Li and Liang,2021),冻结大部分基础参数,仅训练少量附加参数。尽管PEFT显著提高了更新效率,标准PEFT方法通常作为任务级或领域级适配器进行训练,本身并不提供细粒度的知识隔离、专家级路由或对单个知识单元的独立更新。DMoE建立在轻量级参数模块的效率之上,同时将它们组织为解耦的、可检索的专家,用于模块化知识注入。 ### 2.3 解耦MoE的先前探索 一些工作试图解耦MoE的组件以提高效率或训练稳定性。Read-ME(Cai等人,2024)引入了一个预门控路由器,部分解耦自MoE骨干网络,以实现专家感知的批处理和缓存。EvoMoE(Nie等人,2021)通过渐进式从密集到稀疏的演化方案,将专家训练与稀疏门控解耦。StableMoE(Dai等人,2022)蒸馏并冻结一个与骨干网络解耦的路由器,以稳定路由。DeMo(Wang等人,2025d)设计了一种用于多模态对象重新识别的特征级解耦MoE,专注于模态特定特征加权。与先前仅解耦路由器或训练阶段的工作不同,我们的方法将专家和路由器都与基础模型*完全*解耦,隔离每个知识单元,并实现可扩展的路由机制。 ## 3 方法 参见图2:密集模型、传统混合专家(MoE)和所提出的解耦混合专家(DMoE)之间的架构比较。在MoE架构中,密集模型的前馈层被替换为一个耦合的路由器-专家网络。相比之下,DMoE将路由器和专家都与基础模型解耦。在推理过程中,当需要知识注入时,DMoE检索并更新相关专家,实现自适应且非破坏性的知识集成。### 3.1 预备知识与任务形式化 我们首先通过知识注入对模型预测不确定性的影响来刻画其效果,遵循先前的不确定性感知检索和路由方法(Jiang等人,2023;Su等人,2024d)。在每个解码步骤 \( t \),模型在词汇表上产生一个 softmax 分布 \( p_t \)。我们定义
相似文章
EMO:用于涌现模块化的专家混合模型预训练
EMO 是一种专家混合模型(Mixture-of-Experts),通过将相似领域的词元与共享专家分组实现模块化部署,在保持与标准 MoE 相当的性能的同时,支持显著的专家剪枝(保留 25% 的专家即可保留 99% 的性能)且不会导致性能下降。
混合专家模型中的涌现式模块化(8 分钟阅读)
Ai2 发布了 EMO,一个 14B 参数的混合专家语言模型,训练用于发展涌现式模块化。它允许在特定任务中使用一小部分专家,同时保持接近全模型性能。
ConMoE: 基于原型重分配的专家池整合实现MoE压缩
ConMoE提出了一种无需训练的混合专家模型压缩框架,通过选择一部分专家作为可重用原型,并确定性地将原始专家调用重新映射到这些原型,从而在不更新权重或微调的情况下减少内存占用。
Transformer 中的专家混合模型 (MoEs)
Hugging Face 的博客文章,介绍 Transformer 中的专家混合模型 (MoEs) 架构,涵盖从密集模型到稀疏模型的转变、权重加载优化、专家并行计算以及基于 MoE 的语言模型训练技术。
EMO:通过预训练混合专家实现涌现模块化
Allen AI 发布了 EMO 模型,这是一种混合专家模型,其中模块化结构从数据中自然涌现,使得仅使用 12.5% 的专家就能完成一项任务,同时保持接近完整模型的性能。