DLLG:LLM专家的动态Logit级门控机制

arXiv cs.CL 论文

摘要

DLLG(动态Logit级门控)是一种新颖的框架,通过轻量级可学习门控模块,在token级别的logit空间中动态融合多个专门化LLM,在推理和代码基准测试中超越了路由、启发式集成和参数合并等基线方法。该方法仅需稀疏的响应级监督信号,且在无需重新训练的情况下保留了专家模块的独立性。

arXiv:2606.04378v1 公告类型:新提交 摘要:利用多个专门化LLM可以融合互补优势,但现有方法在适应性与稳定性之间存在取舍:路由方法过早做出决策,启发式集成依赖脆弱的代理指标,而参数合并则会引入干扰。我们提出DLLG(动态Logit级门控),这是一种动态logit级集成框架,能够从稀疏的响应级监督中学习token级别的专家融合策略。轻量级门控模块预测逐步融合权重,在无需token级标签或专家重训练的情况下,将轨迹级正确性与生成过程相关联。在多样化的推理和代码基准测试中,DLLG在不同模型规模下持续优于强基线的路由、启发式集成和参数合并方法,充分证明了可学习logit级融合作为集成专门化专家的范式具备鲁棒性和可扩展性。
查看原文
查看缓存全文

缓存时间: 2026/06/05 02:14

# DLLG:LLM专家的动态Logit级门控
来源:https://arxiv.org/html/2606.04378
Zhaoyang Zhang、Xiaoze Liu、Yantao Shen、Shuli Jiang、Shuo Yang、Wei Xia、Zhuowen Tu、Stefano Soatto

###### 摘要

利用多个专业化LLM可以融合互补优势,但现有方法在适应性与稳定性之间存在取舍:路由过早做出决策,启发式集成依赖脆弱的代理信号,而参数合并则引入干扰。我们提出DLLG(Dynamic Logit-Level Gating,动态Logit级门控),这是一种动态logit级集成框架,能够从稀疏的响应级监督中学习token级专家融合。一个轻量级门控模块预测逐步融合权重,将轨迹级正确性与生成过程相关联,无需token级标签或专家再训练。在多样化的推理和代码基准测试中,DLLG在各模型规模上均稳定地优于强路由、启发式集成和参数合并基线,凸显了学习型logit级融合作为集成专业专家的鲁棒且可扩展范式的价值。

机器学习,ICML

![[未标注图片]](https://arxiv.org/html/2606.04378v1/x1.png)

图1:专家组合策略对比。路由依赖于硬性的早期专家选择,当单个响应中的子任务发生变化时便会失效。启发式集成使用推理时的代理信号,这些信号往往与任务正确性不一致。参数合并静态融合专家权重,牺牲了模块化并引发干扰。相比之下,DLLG(本文方法)利用以专家隐藏状态为条件的学习型门控,执行动态的token级logit融合,实现精细且可恢复的专家利用,同时保留专家模块化。

## 1 引言

大型语言模型(LLM)领域涌现出大量*专业化模型*,每个模型针对数学推理或代码生成等特定领域进行优化\(Hui等,2024 (https://arxiv.org/html/2606.04378#bib.bib39);Yang等,2024a (https://arxiv.org/html/2606.04378#bib.bib38)\)。尽管这些专家模型在各自领域内可以超越通用模型\(Achiam等,2023 (https://arxiv.org/html/2606.04378#bib.bib36);Touvron等,2023 (https://arxiv.org/html/2606.04378#bib.bib37)\),但依赖单一专家会限制对多样化任务的覆盖范围。这引出了一个核心问题:*如何将独立训练的专家整合到一个统一系统中,充分发挥其互补优势*\(Chen等,2025 (https://arxiv.org/html/2606.04378#bib.bib23);Yang等,2024b (https://arxiv.org/html/2606.04378#bib.bib27)\)?

已有研究提供了多种方向,但现有方法在*适应性*、*鲁棒性*和*实用性*之间存在持续的张力。**基于路由的方法**每次输入仅选择一个专家\(Šakota等,2024 (https://arxiv.org/html/2606.04378#bib.bib20);Zhuang等,2024 (https://arxiv.org/html/2606.04378#bib.bib16);Zhang等,2025 (https://arxiv.org/html/2606.04378#bib.bib17);Wang等,2024 (https://arxiv.org/html/2606.04378#bib.bib22);Ding等,2024 (https://arxiv.org/html/2606.04378#bib.bib18);Nguyen等,2024 (https://arxiv.org/html/2606.04378#bib.bib19);Pan等,2025 (https://arxiv.org/html/2606.04378#bib.bib21);Ong等,2024 (https://arxiv.org/html/2606.04378#bib.bib24)\),但当单个响应中的专业需求发生变化时,粗粒度的早期决策难以修正;此外,许多方法需要路由器训练或在基准数据上进行校准以确保专家多样性\(Wang等,2024 (https://arxiv.org/html/2606.04378#bib.bib22);Zhang等,2025 (https://arxiv.org/html/2606.04378#bib.bib17);Chen等,2024 (https://arxiv.org/html/2606.04378#bib.bib15);Ong等,2024 (https://arxiv.org/html/2606.04378#bib.bib24)\),这一假设在实际部署中鲜少成立。**Token级集成**能够实现更细粒度的组合\(Yu等,2024b (https://arxiv.org/html/2606.04378#bib.bib9);Huang等,2024 (https://arxiv.org/html/2606.04378#bib.bib12);Xu等,2024 (https://arxiv.org/html/2606.04378#bib.bib13);Mavromatis等,2024 (https://arxiv.org/html/2606.04378#bib.bib11);Yao等,2024 (https://arxiv.org/html/2606.04378#bib.bib10);Wicks等,2025 (https://arxiv.org/html/2606.04378#bib.bib14)\),从均匀平均\(Yu等,2024b (https://arxiv.org/html/2606.04378#bib.bib9)\)到困惑度加权\(Mavromatis等,2024 (https://arxiv.org/html/2606.04378#bib.bib11)\)或top-k token并集\(Yao等,2024 (https://arxiv.org/html/2606.04378#bib.bib10)\)等启发式方法,但这些方案在很大程度上仍属经验性方法,依赖的代理信号可能与专业化程度或正确性不一致。**参数空间合并**(如model souping\(Wortsman等,2022 (https://arxiv.org/html/2606.04378#bib.bib25)\)和任务算术\(Ilharco等,2022 (https://arxiv.org/html/2606.04378#bib.bib26)\))产生单一模型,但牺牲了灵活性,在合并差异较大的专家时往往遭受破坏性干扰,导致超参数选择十分脆弱\(Yang等,2024b (https://arxiv.org/html/2606.04378#bib.bib27)\)。最后,虽然**专家混合(MoE)架构**通过稀疏门控扩展容量\(Chen等,2023 (https://arxiv.org/html/2606.04378#bib.bib44);Shazeer等,2017 (https://arxiv.org/html/2606.04378#bib.bib42);Dai等,2024 (https://arxiv.org/html/2606.04378#bib.bib43);Jiang等,2024 (https://arxiv.org/html/2606.04378#bib.bib45)\),但通常需要对门控和专家进行端到端联合训练,限制了其利用独立预训练的现成专家的能力。因此,一个关键障碍仍然存在:如何在不付出高昂专家再训练代价的情况下,将这些"黑盒"专家有效统一到单一系统中。

在本文中,我们提出**DLLG**(**D**ynamic **L**ogit-**L**evel **G**ating,动态Logit级门控),这是一种从稀疏监督中学习细粒度专家利用的动态logit级集成框架。为避免路由的过早决策问题,DLLG执行自回归软融合:在每个解码步骤,一个轻量级门控模块以提示、部分前缀以及所有专家的轨迹级隐藏状态为条件,生成用于logit聚合的步骤特定混合权重。为替代脆弱的token级启发式方法,DLLG通过监督学习融合规则。我们使用来自自动验证器的响应级正确性标签(独立于门控模块计算)进行教师强制训练,并将其广播到参考响应的所有token。DLLG通过冻结所有专家参数来保持专家模块化,避免干扰,同时消除了对测试时监督或在线rollout的需求。

与通常需要专家和门控联合训练的MoE不同,DLLG将专家视为即插即用的冻结组件,从稀疏监督中学习logit级融合,在无需专家再训练的情况下实现类似MoE的适应性。我们的贡献总结如下:

1. 1\.我们提出DLLG,一种连接token级生成与稀疏响应级监督的动态logit级集成框架。利用教师强制的正确性标签,DLLG无需token级标注或在线强化学习即可学习细粒度的专家利用。
2. 2\.我们分析了学习到的token级融合权重,并表明所提出的门控机制在rollout过程中动态调整专家贡献,随着生成上下文的演变,根据不同模型的专业化程度调整其贡献。
3. 3\.我们在多样化的推理和代码基准测试(GSM8K\(Cobbe等,2021 (https://arxiv.org/html/2606.04378#bib.bib1)\)、Minerva Math\(Lewkowycz等,2022 (https://arxiv.org/html/2606.04378#bib.bib2)\)、MATH\(Hendrycks等,2021 (https://arxiv.org/html/2606.04378#bib.bib3)\)、Code-R1\(Liu and Zhang,2025 (https://arxiv.org/html/2606.04378#bib.bib4)\)、HumanEval\(Chen,2021 (https://arxiv.org/html/2606.04378#bib.bib5)\)、MBPP\(Austin等,2021 (https://arxiv.org/html/2606.04378#bib.bib6)\)、BBH\(Suzgun等,2023 (https://arxiv.org/html/2606.04378#bib.bib7)\)、BigCodeBench\(Zhuo等,2024 (https://arxiv.org/html/2606.04378#bib.bib8)\))上评估DLLG,在各模型规模上均展示了相比路由、启发式集成和参数合并基线的持续提升。

## 2 相关工作

我们将现有的专业化LLM组合策略分为四种主要范式:token级聚合、基于路由的选择、参数空间合并和MoE。

参见图注图2:DLLG概览,在统一流程中展示训练、推理和门控模型架构。\(a\) **训练**:冻结的专业化LLM在教师强制下以真实前缀为条件生成隐藏状态,这些隐藏状态被输入轻量级门控模型。通过将自动验证器应用于专家rollout获得的响应级正确性信号,通过MSE目标监督门控模型。\(b\) **推理**:在每个解码步骤,门控模型从专家隐藏状态预测token级融合权重,专家logit通过logit级融合软性组合用于自回归生成。\(c\) **门控模型**:来自所有专家的隐藏状态被拼接,投影到共享嵌入空间,并由带有LoRA适配器和KV缓存的门控主干处理。权重预测头输出逐token融合权重,所有专家模型保持冻结。参见图注图3:一个典型Code-R1示例上的token级融合行为,门控模型动态调整专家融合权重,数学专业专家在早期推理阶段占主导地位,代码专业专家在代码生成阶段逐渐变得更为突出。

##### Token级聚合

在最细粒度上组合模型输出,通常分为两大类:*静态*或*启发式*。*静态方法*,如均匀平均\(Yu等,2024b (https://arxiv.org/html/2606.04378#bib.bib9)\),具有稳定性优势,但缺乏应对不同专家专业化的灵活性。*启发式方法*尝试利用推理时代理信号动态加权模型,如困惑度\(Mavromatis等,2024 (https://arxiv.org/html/2606.04378#bib.bib11)\)、置信度分数\(Yu等,2024b (https://arxiv.org/html/2606.04378#bib.bib9)\)或top-k token一致性\(Yao等,2024 (https://arxiv.org/html/2606.04378#bib.bib10)\)。然而,这些指标是经验性代理,往往无法与真实任务正确性对齐\(Nunez等,2024 (https://arxiv.org/html/2606.04378#bib.bib34)\)。此外,虽然一些研究关注异构模型的*词表对齐*问题\(Huang等,2024 (https://arxiv.org/html/2606.04378#bib.bib12);Xu等,2024 (https://arxiv.org/html/2606.04378#bib.bib13);Wicks等,2025 (https://arxiv.org/html/2606.04378#bib.bib14)\),但通常在投影后依赖简单的融合规则。与启发式或静态集成方法不同,我们的方法直接从响应级监督中学习token级融合权重,提供了一种在保留logit级集成鲁棒性优势的同时以更细粒度适应专家贡献的原则性替代方案。

##### 基于路由的专家选择

旨在将输入分配给最合适的模型,通常在整个提示或响应的粗粒度上运作\(Chen等,2024 (https://arxiv.org/html/2606.04378#bib.bib15);Zhuang等,2024 (https://arxiv.org/html/2606.04378#bib.bib16);Zhang等,2025 (https://arxiv.org/html/2606.04378#bib.bib17);Wang等,2024 (https://arxiv.org/html/2606.04378#bib.bib22);Ding等,2024 (https://arxiv.org/html/2606.04378#bib.bib18);Nguyen等,2024 (https://arxiv.org/html/2606.04378#bib.bib19);Šakota等,2024 (https://arxiv.org/html/2606.04378#bib.bib20);Pan等,2025 (https://arxiv.org/html/2606.04378#bib.bib21)\)。现有方法主要依赖在提示嵌入上训练的*基于特征的预测器*\(Chen等,2024 (https://arxiv.org/html/2606.04378#bib.bib15);Zhuang等,2024 (https://arxiv.org/html/2606.04378#bib.bib16);Zhang等,2025 (https://arxiv.org/html/2606.04378#bib.bib17)\)或源自基准性能或偏好信号的*统计先验*\(Wang等,2024 (https://arxiv.org/html/2606.04378#bib.bib22);Ong等,2024 (https://arxiv.org/html/2606.04378#bib.bib24)\)。虽然一些方法侧重于优化性能-成本权衡\(Ding等,2024 (https://arxiv.org/html/2606.04378#bib.bib18);Nguyen等,2024 (https://arxiv.org/html/2606.04378#bib.bib19)\),但通常存在两个局限性。其一,路由涉及*硬性的过早决策*:在生成早期选择单一专家,若所选模型在特定子任务上失败,则会导致无法挽回的错误。其二,许多路由器需要大量*基准特定的校准*或测试集统计数据才能泛化\(Wang等,2024 (https://arxiv.org/html/2606.04378#bib.bib22);Zhang等,2025 (https://arxiv.org/html/2606.04378#bib.bib17)\),这一假设在实际部署中鲜少成立。相比之下,DLLG完全避免了硬性选择,利用软性自回归融合进行动态适应,无需依赖测试时的真实标签。

##### 参数空间合并

通过融合多个专家的权重构建单一模型,通常假设架构和初始化共享。常用技术从model souping和SLERP等*基于平均的方法*\(Wortsman等,2022 (https://arxiv.org/html/2606.04378#bib.bib25);Shoemake,1985 (https://arxiv.org/html/2606.04378#bib.bib31);Grove and Karcher,1973 (https://arxiv.org/html/2606.04378#bib.bib32)\)到任务向量上的*算术运算*\(Ilharco等,2022 (https://arxiv.org/html/2606.04378#bib.bib26);Yadav等,2023 (https://arxiv.org/html/2606.04378#bib.bib28);Yu等,2024a (https://arxiv.org/html/2606.04378#bib.bib29);Deep等,2024 (https://arxiv.org/html/2606.04378#bib.bib30)\)不等。虽然推理时计算效率较高,但这些方法存在固有的*静态干扰*问题:合并针对不同目标优化的参数往往因梯度方向冲突而导致性能下降\(Li等,2023 (https://arxiv.org/html/2606.04378#bib.bib33);Yang等,2024b (https://arxiv.org/html/2606.04378#bib.bib27)\)。此外,合并后的模型在组合后固定不变,牺牲了*模块化*以及在生成过程中动态利用特定专家优势的能力。通过专注于推理时的logit融合,DLLG完全绕过了参数干扰,保留了冻结专家的专业化能力。

##### 专家混合(MoE)

是一种通过路由器对每个输入仅激活部分参数来提升模型容量的基础技术\(Chen等,2023 (https://arxiv.org/html/2606.04378#bib.bib44);Shazeer等,2017 (https://arxiv.org/html/2606.04378#bib.bib42);Dai等,2024 (https://arxiv.org/html/2606.04378#bib.bib43);Jiang等,2024 (https://arxiv.org/html/2606.04378#bib.bib45)\)。虽然效果显著,但标准MoE模型依赖专家和路由器的同步优化以确保均衡的专业化\(Cai等,2025 (https://arxiv.org/html/2606.04378#bib.bib46)\)。相比之下,DLLG在事后集成的场景下运作,其中专家已经针对数学或代码等不同领域完全专业化。通过在推理时将融合转移到logit级别,DLLG继承了MoE门控逻辑的动态灵活性,同时绕过了昂贵的端到端训练rollout的需求。这使DLLG有别于现有的存在过早决策问题的路由方法,因为我们的软融合

相似文章

动态潜路由

Hugging Face Daily Papers

动态潜路由(DLR)让LLM通过搜索组合子策略来学习自己的内心独白,其灵感来源于语言的组合性。在低数据微调场景中,DLR达到或优于标准的监督微调。

dMoE: 具有可学习块专家的扩散大语言模型

arXiv cs.CL

dMoE 提出了用于扩散大语言模型的块级专家路由,将唯一激活的专家数量从 69.5 降至 14.6,同时保留了 99.11% 的性能,并实现了 76-80% 的内存减少和 1.14-1.66 倍的加速。

大语言模型何时进行推理?基于熵相变的动力系统视角

arXiv cs.LG

本文探讨了思维链推理在何时对大语言模型有益,表明早期熵动力学能够可靠地指示推理效用,并介绍了EDRM,这是一个轻量级、无需训练的框架,可自适应选择推理策略,在保持或提升准确率的同时显著节省token。