Recover-LoRA用于激进量化:通过合成数据上的知识蒸馏低秩适配恢复2比特语言模型精度
摘要
AMD的研究人员提出了Recover-LoRA,该方法利用基于合成数据的知识蒸馏低秩适配,恢复因LLM激进2比特量化而损失的精度。在Qwen3-4B模型上仅使用1万个合成样本,就在12个基准测试中的9个上实现了80%–95%的精度恢复。
arXiv:2606.04238v1 公告类型:新
摘要:激进权重量化至2比特精度可大幅提升大语言模型推理的吞吐量和内存效率,但通常会导致严重的精度下降。这些增益在边缘设备和终端部署中尤其重要,因为内存容量和带宽是主要制约因素。在本工作中,我们将Recover-LoRA——一种最初为通用模型权重损坏而设计的轻量级、无数据精度恢复方法——扩展到超低位宽量化场景。我们提出了一种选择性混合精度策略,其中仅将MLP的门控和上投影层量化为2比特(W2),而所有其他线性层保持较高精度,从而形成混合精度的GateUp配置。通过三个模型系列(4B–20B)和两个硬件平台的屋顶线分析,我们证明W4/W2-GateUp部署(4比特基座与2比特门控/上投影)相比均匀W4可实现7.5%–23.3%的TPS提升(取决于模型和上下文长度),同时将量化误差限制在可预测的层子集内。然后,我们应用Recover-LoRA——通过在量化层上训练低秩适配器,并结合使用合成数据的logit蒸馏——来恢复因门控和上投影层2比特量化而损失的精度。在Qwen3-4B的案例研究中,Recover-LoRA仅使用1万个合成训练样本且无需标注数据,即可在12个基准测试中的9个上实现80%–95%的精度恢复。我们进一步证明,对于基于蒸馏的恢复,合成数据与精心挑选的标注数据表现相当,并且恢复结果可以泛化到分布外评估任务。我们的结果将Recover-LoRA呈现为一种实用的量化后精度恢复工具,适用于部署场景中的激进权重压缩。
查看缓存全文
缓存时间: 2026/06/05 02:23
# 通过合成数据上的知识蒸馏与低秩适配恢复2比特语言模型的精度
来源:https://arxiv.org/html/2606.04238
## Recover\-LoRA 激进量化:通过合成数据上的知识蒸馏与低秩适配恢复2比特语言模型的精度
Devleena Das Rajeev Patwari Elliott Delaye Ashish Sirasao 超威半导体公司 (AMD) \{devleena.das, rajeev.patwari, elliott.delaye, ashish.sirasao\}@amd.com
###### 摘要
将权重激进量化至2比特精度可为大型语言模型 (LLM) 推理带来显著的吞吐量和内存收益,但通常会造成严重的精度下降。这些收益对于边缘和端侧部署尤为重要,因为这些场景中内存容量和带宽是主要约束。本文将 Recover-LoRA——一种最初为通用模型权重损坏设计的轻量级、无数据精度恢复方法——扩展到超低位宽量化场景。我们提出了一种选择性混合精度策略:仅将 MLP 的门控投影层和上投影层量化至2比特 (W2),而所有其他线性层保持较高精度,从而构成混合精度的 GateUp 配置。通过在三个模型系列 (4B–20B) 和两个硬件平台上的屋顶线分析,我们证明 W4/W2-GateUp 部署(4比特基础权重 + 2比特门控/上投影)相比统一 W4 可带来 7.5–23.3% 的 TPS 提升(取决于模型和上下文长度),同时将量化误差限制在可预测的层子集内。然后,我们应用 Recover-LoRA——在量化层上通过合成数据的对数蒸馏训练低秩适配器——来恢复因门控层和上投影层的2比特量化而损失的精度。在 Qwen3-4B 的案例研究中,Recover-LoRA 仅使用 1 万个合成训练样本且无任何标注数据,便在 12 个基准测试中的 9 个上实现了 80–95% 的精度恢复。我们进一步证明,基于蒸馏的恢复任务中合成数据的表现与精心策划的标注数据相当,且恢复能力可泛化到分布外评估任务。我们的结果将 Recover-LoRA 呈现为一种实用的后量化精度恢复工具,适用于部署场景中的激进权重压缩。
## 1 引言
大型语言模型 (LLM) 正持续快速扩展,近期模型如 Qwen3-235B\Yang 等人,[2025](https://arxiv.org/html/2606.04238#bib.bib17)、DeepSeek-V3\DeepSeek-AI,[2024](https://arxiv.org/html/2606.04238#bib.bib26) 以及 Llama 3\Grattafiori 等人,[2024](https://arxiv.org/html/2606.04238#bib.bib16) 已达到数千亿参数规模。在此规模下,激进压缩对于降低数据中心环境的推理成本和提高吞吐量至关重要。在较小规模(10亿至200亿参数)上,压缩扮演着不同但同样重要的角色——使得部署在内存容量和带宽作为硬约束的边缘和端侧设备成为可能。在这两种场景中,权重量化仍是一种主要的压缩技术。AWQ\Lin 等人,[2024](https://arxiv.org/html/2606.04238#bib.bib2) 和 GPTQ\Frantar 等人,[2023](https://arxiv.org/html/2606.04238#bib.bib3) 等方法已证明 4 比特量化为许多模型系列提供了近乎无损的性能。近期工作开始探索低于 4 比特的精度,例如 QuIP#\Tseng 等人,[2024](https://arxiv.org/html/2606.04238#bib.bib10) 和 AQLM\Egiazarian 等人,[2024](https://arxiv.org/html/2606.04238#bib.bib11) 等将位宽降至 2–3 比特,以进一步减少内存占用并提高推理吞吐量。然而,在实践中降低至 2 比特精度仍然具有挑战性,因为增加的量化噪声会导致显著的精度下降,从而限制了超低位宽模型的实际应用\Zhu 等人,[2024](https://arxiv.org/html/2606.04238#bib.bib4)。同时,低精度权重的吞吐量优势已得到充分确认。在解码受限的情况下,推理吞吐量主要受加载模型权重的内存带宽限制\Patwari 等人,[2025](https://arxiv.org/html/2606.04238#bib.bib25),将权重精度从 4 比特降至 2 比特直接减少了每 token 传输的字节数,从而带来有意义的 TPS 提升。对于实际部署,这引出了一个关键问题:*如果 2 比特量化能带来显著的吞吐量和内存收益,但会降低精度,那么能否以低成本恢复该精度——无需完整的模型重训练或访问标注数据——从而实现广泛可用性?*
在本工作中,我们将精度恢复挑战构建为一个两阶段问题:(1) 选择性后训练量化 (PTQ),然后 (2) 通过 Recover-LoRA\Das 等人,[2025](https://arxiv.org/html/2606.04238#bib.bib1) 使用低秩适配和知识蒸馏进行轻量级事后恢复。我们首先提出一种混合精度策略,利用 Transformer 层对吞吐量的不均匀贡献。现代门控 MLP 架构中,MLP 块的门控投影层和上投影层占据了大部分模型参数,是解码过程中的主要吞吐量瓶颈。通过仅将这些层选择性量化至 2 比特,同时将其他层保持为 4 比特——我们称之为 W4/W2-GateUp 配置——我们可以捕获完全 W2 量化的大部分吞吐量收益(在研究的三个模型系列中,根据模型和上下文长度不同,相比 W4 可获得 7.5–23.3% 的 TPS 提升)。类似地,近期组件级敏感性分析证实 MLP 投影是 Transformer 架构中对量化最敏感的组件,而注意力投影则鲁棒得多\Cim 等人,[2026](https://arxiv.org/html/2606.04238#bib.bib27)。因此,将门控层和上投影层作为激进量化目标可以最大化吞吐量增益,但也会带来有意义的精度下降,这促使了我们方法的第二个阶段。在阶段二中,我们应用 Recover-LoRA 来恢复损失的精度。由于量化层是已知的,我们直接将低秩适配器 (LoRA) 附加到门控投影和上投影上,并通过知识蒸馏以全精度模型作为教师,仅使用合成生成的数据进行训练,无需任何标注数据集,也无需完整模型重训练。Recover-LoRA\Das 等人,[2025](https://arxiv.org/html/2606.04238#bib.bib1) 最初是为从通用权重损坏中恢复精度而开发的;在此我们展示其对结构化量化误差的有效性,直接回应了原论文中确定的未来工作方向。
我们在 Qwen3-4B 上评估了精度恢复效果,覆盖 12 个基准测试,涵盖常识推理、事实知识和分布外任务。我们扩展了 Recover-LoRA\Das 等人,[2025](https://arxiv.org/html/2606.04238#bib.bib1),同时使用合成生成的数据和一个完善的微调数据集 (OpenHermes)。此外,我们还在两个硬件平台上对三个模型系列 (Qwen3-4B, Qwen3-14B, GPT-OSS-20B) 进行了吞吐量分析,以确立 W4/W2-GateUp 配置的实际动机。我们的贡献如下:
1. 1. 我们证明 Recover-LoRA 能够有效恢复来自激进 2 比特量化的精度损失——在 Qwen3-4B 案例研究中仅使用 1 万个合成样本,无需标注数据或完整模型重训练。十二个基准测试中的九个(包括分布外任务)实现了 80–95% 的精度恢复,且合成数据的表现与精心策划的标注数据相当。为证明该方法不限于单一比特宽度,我们还在附录 B (https://arxiv.org/html/2606.04238#A2) 中对 3 比特门控/上投影精度进行了验证,确认了跨比特宽度的正向恢复效果。
2. 2. 我们提出了一条**实用的端到端部署流水线**,其中门控和上投影的选择性 2 比特量化在两个硬件平台上的三个模型系列 (4B–20B) 中相比统一 W4 可提供 7.5–23.3% 的 TPS 提升(取决于上下文长度),并展示了 Recover-LoRA 作为恢复机制,用于弥补 2 比特量化本会严重损失的精度。
## 2 相关工作
### 2.1 LLM 的权重量化
后训练量化 (PTQ) 方法在无需重训练的情况下将 LLM 权重压缩至更低精度。AWQ\Lin 等人,[2024](https://arxiv.org/html/2606.04238#bib.bib2) 识别出激活感知的显著权重通道,并在量化前应用逐通道缩放;GPTQ\Frantar 等人,[2023](https://arxiv.org/html/2606.04238#bib.bib3) 利用近似二阶信息最小化逐层量化误差。这些方法在 4 比特精度下有效,并可扩展至 3 比特,但在低于 3 比特时精度会大幅下降\Zhu 等人,[2024](https://arxiv.org/html/2606.04238#bib.bib4)。量化感知训练 (QAT) 方法,如 LLM-QAT\Liu 等人,[2023](https://arxiv.org/html/2606.04238#bib.bib5) 和 DL-QAT\Ke 等人,[2024](https://arxiv.org/html/2606.04238#bib.bib6),通过使用模拟量化噪声重新训练模型以提高鲁棒性。LLM-QAT 特别证明,通过知识蒸馏,合成数据可以替代标注数据用于 QAT。然而,真正的 QAT 需要在前向传播中模拟量化并更新所有模型参数,这对于大型模型计算量巨大,且需要与预训练相当的训练基础设施。在原 Recover-LoRA 工作\Das 等人,[2025](https://arxiv.org/html/2606.04238#bib.bib1) 中,一个使用合成数据的全模型微调基线(记为 LLM-QAT*,不要与真正的 QAT 混淆)在退化模型上实现了负的精度恢复,说明没有量化感知梯度模拟的简单全参数蒸馏可能适得其反。相比之下,Recover-LoRA 轻量级的基于 LoRA 的方法仅在量化模型上训练少量适配器参数,无需修改量化流水线,从而避免了 QAT 的复杂性且实现了正向恢复。这使得它成为一种实用的事后部署工具:从业者可以应用标准的 PTQ 方法,然后在不重训练或修改量化流水线的情况下恢复精度。
超低位宽量化的近期工作包括 QuIP#\Tseng 等人,[2024](https://arxiv.org/html/2606.04238#bib.bib10) 和 AQLM\Egiazarian 等人,[2024](https://arxiv.org/html/2606.04238#bib.bib11),分别使用不连贯性处理和加性码本将量化推至 4 比特以下。虽然这些方法推进了量化前沿,但需要专门的核处理,且不一定能轻松集成到现有部署流水线中。Recover-LoRA\Das 等人,[2025](https://arxiv.org/html/2606.04238#bib.bib1) 采取了互补的方法——专注于恢复 PTQ 损失的精度,而非改进量化算法本身。在本工作中,我们专门将 Recover-LoRA 扩展到 2 比特量化,展示了其在恢复超低位宽精度损失方面的有效性。
### 2.2 Recover-LoRA
Recover-LoRA\Das 等人,[2025](https://arxiv.org/html/2606.04238#bib.bib1) 被引入作为一种无数据方法,用于恢复功能退化的语言模型精度。该方法在选定模型层上使用从全精度模型进行对数蒸馏获得的合成数据(通过混合采样生成\Liu 等人,[2023](https://arxiv.org/html/2606.04238#bib.bib5))来训练 LoRA 适配器\Hu 等人,[2022](https://arxiv.org/html/2606.04238#bib.bib7)。原 Recover-LoRA 工作在因不当权重序列化而退化的模型上展示了 5–17% 的精度恢复,在多种 SLM 架构上优于全模型蒸馏 (LLM-QAT*) 和监督 LoRA 微调,并将量化导致的退化认定为自然的后续方向。在本工作中,我们将 Recover-LoRA 应用于 2 比特量化模型,展示了其在合成误差设置之外的有效性。
### 2.3 混合精度量化
混合精度量化根据各层或各组件对量化的敏感性分配不同的位宽\Dong 等人,[2019](https://arxiv.org/html/2606.04238#bib.bib12), Wang 等人,[2019](https://arxiv.org/html/2606.04238#bib.bib13)。OWQ\Lee 等人,[2024](https://arxiv.org/html/2606.04238#bib.bib14) 识别出易受异常值影响的列,并为它们分配更高的精度。我们的 W4/W2-GateUp 策略是基于吞吐量分析得出的一种具体混合精度量化实例。选择门控和上投影进行激进量化,是因为它们在现代 LLM 架构中占参数的大部分,并且是解码过程中的主要带宽瓶颈。值得注意的是,组件级敏感性分析显示 MLP 投影实际上是 Transformer 中对量化最敏感的组件\Cim 等人,[2026](https://arxiv.org/html/2606.04238#bib.bib27),这意味着这个吞吐量最优的选择会带来有意义的精度代价,进一步推动了将 Recover-LoRA\Das 等人,[2025](https://arxiv.org/html/2606.04238#bib.bib1)作为实用后量化精度恢复机制的需求。
### 2.4 参数高效微调
LoRA\Hu 等人,[2022](https://arxiv.org/html/2606.04238#bib.bib7) 及其变体被广泛用于 LLM 的参数高效微调。QLoRA\Dettmers 等人,[2023](https://arxiv.org/html/2606.04238#bib.bib8) 通过反向传播通过冻结的 4 比特基础模型来实现量化模型的微调,而 QA-LoRA\Xu 等人,[2024](https://arxiv.org/html/2606.04238#bib.bib9) 将量化感知集成到 LoRA 训练过程中。然而,这些方法是为使用标注数据进行任务适应而设计的——它们假设量化模型是下游专业化的起点,而非精度已经损失需要恢复。Recover-LoRA 在一种根本不同的设置中使用 LoRA:通过合成数据和 logit 蒸馏(而非任务特定监督)来恢复量化退化后原模型的通用能力。
## 3 背景
### 3.1 LoRA
低秩适配 (LoRA)\Hu 等人,[2022](https://arxiv.org/html/2606.04238#bib.bib7) 通过添加两个可训练的低秩矩阵 A∈Rr×k 和 B∈Rd×r(其中 r≪min(d,k))来增强预训练的权重矩阵 W∈Rd×k。LoRA 增强层的输出为:
Y = WX + αBAX (1)
其中 X 是输入激活,α 是缩放因子。训练期间,W 被冻结,仅更新 A 和 B。
### 3.2 知识蒸馏
知识蒸馏\Hinton 等人,[2015](https://arxiv.org/html/2606.04238#bib.bib15) 训练学生模型 MS 以匹配教师模型 MT 的输出分布。训练目标是最小化教师和学生 logit 分布之间的 KL 散度:
L_KD = KL(p_t ∥ p_s) = Σ_i p_t^i log(p_t^i / p_s^i) (2)
其中对于输入 x,p_t = softmax(M_T(x)),p_s = softmax(M_S(x))。
### 3.3 W4/W2-GateUp 混合精度量化
现代 Transformer 架构采用门控 MLP 结构,包含门控投影、上投影和下投影层。在 Qwen3\Yang 等人,[2025](https://arxiv.org/html/2606.04238#bib.bib17) 等模型中,相似文章
Hybrid-LoRA:桥接全微调与低秩适应的后训练方法
Hybrid-LoRA提出了一种框架,选择性地对一小部分模块进行全微调,同时对其他模块使用LoRA,在显著降低计算成本的同时实现了接近全微调的性能。实验表明,与现有参数高效基线方法相比,性能提升高达5.65%。
LC-QAT:基于线性约束向量量化的数据高效2比特LLM量化感知训练
提出LC-QAT,一种用于大语言模型的2比特仅权重量化感知训练框架,通过学习仿射映射实现端到端训练,仅使用0.1%–10%的训练数据即达到最优结果。
BaLoRA:大规模模型的贝叶斯低秩适应
BaLoRA 引入了低秩适应(LoRA)的贝叶斯扩展,通过缩小与全量微调之间的差距,提供校准良好的不确定性估计并提高预测准确性。
InfoQuant:为低比特大语言模型量化塑造激活分布
InfoQuant 提出了一种无需训练的方法——峰值抑制正交变换(PSOT),用于重塑低比特大语言模型量化中的激活分布,在 W4A4KV4 设置下保留了 97% 的浮点精度,并优于之前的 PTQ 方法。
Video2LoRA: 视觉-语言模型的参数化视频内化
本文介绍Video2LoRA,一种直接从视频表示预测低秩适配(LoRA)权重的方法,能够在冻结的视觉-语言模型中实现高效的视频处理。它将视觉令牌负载降低最多1500倍,查询TTFT降低6-80倍,同时在视频摘要和字幕生成基准上保持性能。