E-PMQ:专家引导的合并后量化与合并权重锚定
摘要
本文介绍了E-PMQ,一种专家引导的合并后量化框架,解决了合并和量化带来的联合偏差,在CLIP-ViT和FLAN-T5等多任务合并模型上取得了显著的精度提升。
arXiv:2605.16882v1 公告类型:新
摘要:低资源部署限制使得模型量化对于在保持性能的同时部署神经网络变得至关重要。同时,模型合并已成为一种越来越实用的低资源策略,用于将多个任务或领域专家模型集成到单个模型中,无需联合训练或多模型服务。量化和模型合并相结合,通过将多个专家模型集成到一个低位模型中,实现了高效的低资源部署流程。我们将这种设置定义为合并后量化(PMQ)。我们表明,直接对合并模型应用训练后量化(PTQ)是不可靠的,因为两种不同的偏差耦合在一起:低位重构引入的量化偏差和模型合并继承的专家相关合并偏差。为了减轻这些偏差,我们提出了E-PMQ,一种专家引导的PMQ框架,该框架在逐层校准期间使用源专家权重提供专家引导的输出目标,同时使用合并权重锚定来稳定校准并保持合并模型的集成行为。在CLIP-ViT-B/32的八任务合并上,E-PMQ将Task Arithmetic下的4位GPTQ从65.0%提高到73.6%,将TIES-Merging下的4位GPTQ从69.1%提高到74.8%。在更困难的设置下,E-PMQ将20任务CLIP-ViT-L/14上的GPTQ从34.8%提高到76.7%,将FLAN-T5-base GLUE上的GPTQ从78.26%提高到83.34%。这些结果表明,E-PMQ能够实现有效的合并后量化和低位部署。
查看缓存全文
缓存时间: 2026/05/19 06:36
# E-PMQ: 融合权重重锚定的专家指导后融合量化 来源: https://arxiv.org/html/2605.16882 汪文俊¹杨干古¹*蔡硕¹*王远逸¹ 王鹏凯¹ 吴建民¹,²,³ 杨红霞¹,²,³ ¹香港理工大学 ²理大-大亚湾科技创新研究院 ³InfiX.ai [email protected] 代码: github.com/wwjzhy/E-PMQ (https://github.com/wwjzhy/E-PMQ) ###### 摘要 低资源部署限制使得模型量化对于在保持性能的同时部署神经网络至关重要。与此同时,模型合并已成为一种日益实用的低资源策略,用于将多个任务或领域专用专家整合到单个模型中,而无需联合训练或多模型服务。通过将多个专家集成到一个低位模型中,量化和模型合并共同实现了高效的低资源部署流水线。我们将此设定形式化为**融合后量化** (PMQ)。我们表明,将训练后量化 (PTQ) 直接应用于融合模型是不可靠的,因为两种不同的偏差被耦合在一起:低位重建引入的**量化偏差**和从模型合并继承的**专家相对融合偏差**。为了缓解这些偏差,我们提出了**E-PMQ**,一个专家指导的PMQ框架,它在逐层校准期间使用源专家权重提供专家指导的输出目标,并结合融合权重重锚定来稳定校准并保持融合模型的整合行为。在CLIP-ViT-B/32八任务融合上,E-PMQ在Task Arithmetic下将4-bit GPTQ从65.0%提升至73.6%,在TIES-Merging下从69.1%提升至74.8%。在更困难的设定下,E-PMQ将20任务CLIP-ViT-L/14上的GPTQ从34.8%提升至76.7%,将FLAN-T5-base GLUE上的GPTQ从78.26%提升至83.34%。这些结果表明E-PMQ实现了有效的融合后量化和低位部署。 ## 1 引言 低资源部署限制使得模型量化对于在保持性能的同时部署神经网络至关重要。低位训练后量化 (PTQ) 是此设定中最实用的技术之一,因为它仅使用少量校准集将全精度权重转换为低位表示,而无需昂贵的端到端重训练。现有的PTQ方法对于独立训练的模型已取得强劲结果,在这些模型中,全精度模型通常被视为逐层量化期间的可靠重建目标 (Frantar等,2023 (https://arxiv.org/html/2605.16882#bib.bib25); Lin等,2024 (https://arxiv.org/html/2605.16882#bib.bib26); Xiao等,2023 (https://arxiv.org/html/2605.16882#bib.bib27); Nagel等,2020 (https://arxiv.org/html/2605.16882#bib.bib23); Li等,2021 (https://arxiv.org/html/2605.16882#bib.bib24))。 模型合并也是一种日益实用的低资源策略。与联合训练一个多任务模型或服务于多个专家不同,合并将多个任务或领域专用模型整合到单个模型中 (Wortsman等,2022 (https://arxiv.org/html/2605.16882#bib.bib18); Ilharco等,2023 (https://arxiv.org/html/2605.16882#bib.bib20); Matena和Raffel,2022 (https://arxiv.org/html/2605.16882#bib.bib19); Yadav等,2023 (https://arxiv.org/html/2605.16882#bib.bib21); Yu等,2024 (https://arxiv.org/html/2605.16882#bib.bib22); Cheng等,2025 (https://arxiv.org/html/2605.16882#bib.bib48))。这使得合并对于资源受限的适应和部署具有吸引力:最终模型可以结合多个专家的能力,同时避免多模型服务。然而,融合模型不一定是一个独立优化的多任务模型。由于它是通过参数组合获得的,它可能已经偏离了合并旨在保持的专家行为。 这两种低资源技术自然会在部署中相遇:在专家被融合到单个模型后,最终模型可能仍然需要量化以进行低位推理。我们将此设定形式化为**融合后量化** (PMQ),其中量化目标是融合模型,而不是独立训练的模型。这种区分很重要,因为朴素的PMQ耦合了两种不同的偏差。第一种是低位重建引入的**量化偏差**。第二种是从模型合并继承的**专家相对融合偏差**。将普通的PTQ方法(如GPTQ (Frantar等,2023 (https://arxiv.org/html/2605.16882#bib.bib25)))直接应用于融合模型只会重建融合模型本身,因此将这种可能已偏差的模型作为唯一目标。结果,朴素的PMQ可能会保留专家相对融合偏差,并进一步与量化偏差叠加,使得标准的先合并后量化流水线不可靠,尤其是在激进的低位设定下。 为了缓解这些偏差,我们提出了**E-PMQ**,一个具有融合权重重锚定的专家指导PMQ框架。在逐层校准期间,E-PMQ使用源专家权重提供专家指导的输出目标。这些目标将专家相对指导引入量化过程,而不是被动地仅重建融合模型。结合这种专家指导,融合权重重锚定可以稳定校准并保持融合模型的整合行为。专家模型仅在融合后校准阶段被访问。量化后,部署的模型仍然是单个低位融合模型,无需专家或额外的推理时模块。图1 (https://arxiv.org/html/2605.16882#S1.F1) 说明了这种区别。 参见图注图1: 普通PTQ、朴素PMQ和E-PMQ的概述。普通PTQ通过重建一个可靠的全精度目标来量化训练好的模型。朴素PMQ首先合并多个专家检查点,然后直接量化融合模型,从而重建一个不完美的融合目标,并遭受累积的融合和量化偏差。相反,E-PMQ在逐层校准期间使用专家指导的输出目标,并将量化权重锚定到融合检查点W\_m,将融合后量化转变为具有融合权重重锚定的专家指导校准。实验表明,E-PMQ在视觉和文本设定下持续改善低位融合模型。在CLIP-ViT-B/32八任务融合上,E-PMQ在Task Arithmetic下将4-bit GPTQ从65.0%提升至73.6%,在TIES-Merging下从69.1%提升至74.8%。收益在更困难的设定下仍然强劲:在Task Arithmetic下,E-PMQ将20任务CLIP-ViT-L/14上的GPTQ从34.8%提升至76.7%,将FLAN-T5-base GLUE上的GPTQ从78.26%提升至83.34%。进一步的实验表明,在多种融合方法、任务规模、模态和量化位宽下均有持续提升。 我们将本研究的主要贡献总结如下: ❶ 我们将**融合后量化** (PMQ) 定义为一个针对融合模型的独特低位部署设定,并识别了朴素PMQ的一个关键失败模式:直接重建融合模型会耦合低位重建引入的**量化偏差**与从模型合并继承的**专家相对融合偏差**。 ❷ 我们引入了**E-PMQ**,一个专家指导的PMQ框架,它在逐层校准期间使用源专家权重提供专家指导的输出目标,并结合融合权重重锚定来稳定校准并保持融合模型的整合行为。 ❸ 我们在CLIP和FLAN-T5上验证了E-PMQ,显示在多种融合方法、任务规模、模态和量化位宽下,相对于朴素PMQ基线(如GPTQ)具有持续收益。 ## 2 相关工作 #### 模型合并。 模型合并将多个专用模型组合成单个模型,无需联合训练或每任务部署一个模型。现有方法包括权重平均、Fisher合并、任务算术、TIES-Merging、DARE,以及自适应或无数据任务向量方法 (Wortsman等,2022 (https://arxiv.org/html/2605.16882#bib.bib18); Matena和Raffel,2022 (https://arxiv.org/html/2605.16882#bib.bib19); Ilharco等,2023 (https://arxiv.org/html/2605.16882#bib.bib20); Yadav等,2023 (https://arxiv.org/html/2605.16882#bib.bib21); Yu等,2024 (https://arxiv.org/html/2605.16882#bib.bib22); Cheng等,2025 (https://arxiv.org/html/2605.16882#bib.bib48))。最近的综述和系统工作将模型融合视为重复训练或服务于多个专家的可扩展替代方案 (Zhou等,2026 (https://arxiv.org/html/2605.16882#bib.bib4), 2025 (https://arxiv.org/html/2605.16882#bib.bib5); Wang等,2026 (https://arxiv.org/html/2605.16882#bib.bib6), 2025b (https://arxiv.org/html/2605.16882#bib.bib7)),而更广泛的融合方法探索基于偏好或蒸馏的组合 (Gu等,2025 (https://arxiv.org/html/2605.16882#bib.bib8); Wang等,2025c (https://arxiv.org/html/2605.16882#bib.bib9))。这些工作专注于构建、扩展或管理融合模型;我们的工作则研究如何更可靠地量化一个已经融合的模型。 #### 训练后量化。 训练后量化将训练好的全精度模型压缩为低位权重,无需端到端重训练,通常通过基于校准的舍入、缩放或逐层重建 (Nagel等,2020 (https://arxiv.org/html/2605.16882#bib.bib23); Li等,2021 (https://arxiv.org/html/2605.16882#bib.bib24); Frantar等,2023 (https://arxiv.org/html/2605.16882#bib.bib25); Lin等,2024 (https://arxiv.org/html/2605.16882#bib.bib26); Xiao等,2023 (https://arxiv.org/html/2605.16882#bib.bib27); Yao等,2022 (https://arxiv.org/html/2605.16882#bib.bib28))。普通PTQ通常假设全精度模型是可靠的目标,这对于独立训练的模型是自然的,但对于融合模型则不那么可靠。低精度训练和推理配方进一步强调了数值效率对于可扩展部署的重要性 (Wang等,2025a (https://arxiv.org/html/2605.16882#bib.bib11))。我们的工作研究PMQ,其中朴素先融合后量化的基线将普通PTQ(如GPTQ)应用于融合模型。E-PMQ不单单重建融合模型,而是在逐层量化期间使用源专家权重构建专家指导的校准目标,并将解锚定到融合模型以获得稳定性。 ## 3 预备知识与问题形式化 #### 符号。 令 \{W\_i\}\_{i=1}^K 表示 K 个任务专用专家模型,W\_m = M(\{W\_i\}\_{i=1}^K) 是由合并算法 M 产生的融合模型。我们使用 W\_i^ℓ、W\_m^ℓ 和 Q^ℓ 分别表示专家 i、融合模型和量化模型的第 ℓ 层权重。令 D\_cal 为一个小型校准集,X^ℓ ∈ R^{d\_in × n} 表示进入第 ℓ 层的校准激活,其中 n 是校准 token 的数量。b 位量化权重的可行集记为 Q\_b。 #### 训练后量化。 训练后量化使用小型校准集将全精度模型压缩为低位模型,无需端到端重训练。对于通用全精度模型 W,PTQ 算法产生量化模型 Q = A\_ptq(W; D\_cal), (1) 其中 A\_ptq 表示 PTQ 算法,Q 是结果 b 位模型。 遵循 GPTQ (Frantar等,2023 (https://arxiv.org/html/2605.16882#bib.bib25)) 中使用的逐层重建公式,基于重建的 PTQ 方法最小化以下逐层目标: min_{Q^ℓ ∈ Q\_b} ||Q^ℓ X^ℓ - W^ℓ X^ℓ||\_F^2。 (2) 因此,我们将逐层**量化偏差**表征为: Δ\_quant^ℓ(X^ℓ) = Q^ℓ X^ℓ - W^ℓ X^ℓ。 (3) #### 模型合并。 模型合并将多个任务或领域专用专家组合成单个模型,无需联合训练或每任务部署一个模型: W\_m = M ( \{W\_i\}\_{i=1}^K )。 (4) 由于 W\_m 是通过参数组合获得的,其中间表示可能偏离原始专家。先前的工作已经在模型合并期间观察到融合模型与源专家之间的这种表示级差异 (Yang等,2024 (https://arxiv.org/html/2605.16882#bib.bib49))。沿用这一观点,我们在输出空间中表征逐层**专家相对融合偏差**。我们使用 X^ℓ 作为公共逐层输入,这隔离了相同输入下不同层权重导致的输出差异。融合层相对于专家 i 的偏差为: Δ\_merge,i^ℓ(X^ℓ) = W\_m^ℓ X^ℓ - W\_i^ℓ X^ℓ。 (5) 该项衡量了在应用量化之前,融合模型已偏离每个源专家行为的程度。 #### 融合后量化。 在本工作中,我们形式化融合后量化,其目标是在合并后获得低位模型。PMQ 产生量化融合模型 Q\_m = A\_pmq(W\_m, \{W\_i\}\_{i=1}^K; D\_cal), (6) 其中 A\_pmq 表示融合后量化算法。一个直接的解决方案是将标准 PTQ 算法直接应用于融合模型: Q\_m^naive = A\_ptq(W\_m; D\_cal)。 (7) 在第 ℓ 层,遵循 GPTQ 风格的重建目标,朴素 PMQ 最小化 min_{Q^ℓ ∈ Q\_b} ||Q^ℓ X^ℓ - W\_m^ℓ X^ℓ||\_F^2。 (8) 然而,此目标将全精度融合模型视为一个可靠的独立重建目标。这个假设在 PMQ 中有问题,因为融合模型在量化之前可能已经包含专家相对融合偏差。 为了使这种偏差显式化,考虑量化融合层相对于专家 i 的输出偏差: Q^ℓ X^ℓ - W\_i^ℓ X^ℓ = \underbrace{Q^ℓ X^ℓ - W\_m^ℓ X^ℓ}\_{\text{量化偏差}} + \underbrace{W\_m^ℓ X^ℓ - W\_i^ℓ X^ℓ}\_{\text{专家相对融合偏差}}。 (9) 第一项由低位量化引入,对应于 PTQ 方法考虑的标准重建偏差。第二项继承自模型合并:它衡量全精度融合层与每个源专家的偏差程度,因此对于仅重建 W\_m^ℓ 的朴素 PMQ 目标来说是不可见的。这种区分使得 PMQ 从根本上不同于量化独立训练的模型。在 PMQ 中,量化模型不应仅仅近似于融合模型。
相似文章
GEMQ:面向MoE大语言模型的全局专家级混合精度量化方法
提出GEMQ,一种面向MoE大语言模型的全局专家级混合精度量化方法,利用线性规划和路由器微调来减少内存占用并加速推理,同时将精度损失降至最低。
MODE: 面向MoE多模态大语言模型的模态分解专家级混合精度量化框架
本文介绍MODE,一种用于MoE多模态大语言模型的模态分解专家级混合精度量化框架,通过按模态分解选择频率并过滤冗余视觉标记来解决专家重要性估计中的偏差,在激进量化下实现极小的性能损失。
Mix-Quant: 量化预填充,精准解码的智能体大语言模型
Mix-Quant 提出了一种面向智能体大语言模型的阶段感知量化框架,在预填充阶段使用 NVFP4 量化以加速计算,同时在解码阶段保持 BF16 精度以维持准确性。该方法在智能体基准测试中实现了预填充速度提升最高 3 倍,且性能下降极小。
面向混合专家模型路由一致量化的价值与结构对齐
本文提出VSRAQ,一种针对混合专家模型的训练后量化方法,通过对齐路由相关logits和专家排序来保持专家选择行为,从而减少量化引起的性能下降,且无推理开销。
用于大语言模型压缩的联合结构化剪枝与混合精度量化
一种新颖的端到端大语言模型压缩框架,联合优化结构化剪枝与混合精度量化,在超低位宽精度下,相比于现有最先进方法实现了显著的困惑度降低和加速效果。