LoRA优化中缩放因子的潜藏威力
摘要
本文揭示了LoRA优化中缩放因子α比学习率更具影响力,并提出了LoRA-α框架,通过将α恢复到其理论原则区间,提升了性能并简化了超参数搜索。
arXiv:2606.12883v1 公告类型:新
摘要:在低秩适配(LoRA)中,缩放因子$\alpha$常被视为学习率的附庸,但其在优化中的作用仍鲜为人知。本文揭示,缩放因子$\alpha$与学习率发挥不同作用,其中$\alpha$成为有效优化的主导驱动力,其带来的性能提升无法单凭调整学习率实现。通过广泛的实证分析与理论信噪-漂移框架的协同,我们对LoRA的缩放机制有三项发现:首先,LoRA的谱抑制平滑了优化曲面,使得标准超参数过于保守,形成优化鸿沟。其次,利用这种平滑性加速收敛时,$\alpha$通过放大任务信号且不提高漂移比,其效果优于学习率。第三,最优缩放因子与秩呈次线性关系,近似遵循平方根定律,且系数异常大,揭示了现有秩相关启发式方法的缩放不足。基于这些见解,我们提出LoRA-$\alpha$——一个极简框架,将$\alpha$恢复至其理论原则区间,使LoRA兼容标准小学习率。在多种任务上的广泛评估表明,LoRA-$\alpha$一致地提升了性能并简化了超参数搜索,释放了LoRA的学习潜能。
查看缓存全文
缓存时间: 2026/06/12 08:54
# LoRA 优化中缩放因子的隐藏力量 来源:https://arxiv.org/html/2606.12883 Zicheng Zhang¹,Haoran Li²,Jiaxing Wang¹,Guoqiang Gong¹,Anqi Li³,Yudong Hu¹,Ting Xiong¹,Yurong Gao⁴,Junxing Hu¹,Zhida Jiang¹,Yifeng Zhang¹,Pengzhang Liu¹,Qixia Jiang¹ ¹京东 ²中国科学院大学数学科学学院 ³南开大学数学科学学院 ⁴中国科学院大学前沿交叉科学学院
###### 摘要
在低秩适配(LoRA)中,缩放因子 α 常被视为学习率的简单补充,但其在优化中的作用仍鲜为人知。在本文中,我们揭示缩放因子 α 与学习率具有不同的功能,α 是有效优化的主导驱动力,其带来的增益无法仅通过学习率缩放实现。通过广泛的实证分析与理论信号-漂移框架的协同,我们对 LoRA 的缩放机制有了三点新发现:首先,LoRA 的谱抑制使优化景观变得平滑,导致标准超参数过于保守,产生了优化缺口。其次,当利用这种平滑性加速收敛时,α 在放大任务信号的同时不增加漂移比,因而优于学习率。第三,最优缩放因子与秩之间呈次线性关系,可由平方根律(系数出乎意料地大)很好地刻画,揭示了现有秩相关启发式方法的缩放不足。基于这些见解,我们提出 LoRA-α,一个极简框架,将 α 恢复到其原则性区间,使 LoRA 兼容标准的小学习率。跨不同任务的广泛评估表明,LoRA-α 在简化超参数搜索的同时持续提升性能,释放了 LoRA 的学习潜力。
## 1 引言
大规模预训练模型(OpenAI Team [2020](https://arxiv.org/html/2606.12883#bib.bib3), [2023](https://arxiv.org/html/2606.12883#bib.bib4); Meta Team [2023](https://arxiv.org/html/2606.12883#bib.bib54); Qwen Team [2023](https://arxiv.org/html/2606.12883#bib.bib5); DeepSeek Team [2025](https://arxiv.org/html/2606.12883#bib.bib8))的快速增长使得高效适配成为核心挑战,推动了参数高效微调(PEFT)方法的发展(Mangrulkar et al. [2023](https://arxiv.org/html/2606.12883#bib.bib50); Lester et al. [2021](https://arxiv.org/html/2606.12883#bib.bib11); He et al. [2022](https://arxiv.org/html/2606.12883#bib.bib12); Edalati et al. [2023](https://arxiv.org/html/2606.12883#bib.bib13); Zhang et al. [2025a](https://arxiv.org/html/2606.12883#bib.bib14))。其中,低秩适配(LoRA)(Hu et al. [2022](https://arxiv.org/html/2606.12883#bib.bib10))因其高效和稳定性成为主流方法。LoRA 将权重更新参数化为 ΔW = α/r BA,其中低秩因子 B 和 A 以秩 r 和缩放因子 α 近似更新。这一简单公式加上框架支持(Mangrulkar et al. [2023](https://arxiv.org/html/2606.12883#bib.bib50)),使其从自然语言处理(NLP)(Liu et al. [2022](https://arxiv.org/html/2606.12883#bib.bib18); Ding et al. [2023](https://arxiv.org/html/2606.12883#bib.bib19); Zhao et al. [2024](https://arxiv.org/html/2606.12883#bib.bib22))到多模态生成(Guo et al. [2024](https://arxiv.org/html/2606.12883#bib.bib24); Blattmann et al. [2023](https://arxiv.org/html/2606.12883#bib.bib25); Ruiz et al. [2023](https://arxiv.org/html/2606.12883#bib.bib26))得以广泛采用。尽管概念简单,但由于其固有的双线性架构和超参数间复杂的相互作用,LoRA 的优化行为仍未被充分理解。缩放因子 α 源于特征学习原理(Yang and Hu [2021](https://arxiv.org/html/2606.12883#bib.bib99)),旨在将最优超参数与秩的选择解耦,从而简化超参数搜索。虽然已有研究探索了初始化(Wang et al. [2024b](https://arxiv.org/html/2606.12883#bib.bib47); Meng et al. [2024](https://arxiv.org/html/2606.12883#bib.bib43); Zhang et al. [2025b](https://arxiv.org/html/2606.12883#bib.bib92))和学习率(Biderman et al. [2024](https://arxiv.org/html/2606.12883#bib.bib17); Schulman and Lab [2025](https://arxiv.org/html/2606.12883#bib.bib91); Chen et al. [2026](https://arxiv.org/html/2606.12883#bib.bib125)),但缩放因子 α 仍被系统性地忽视,通常被绑定于简单的基于秩的启发式方法,如 α = r(Hu et al. [2022](https://arxiv.org/html/2606.12883#bib.bib10))或 2r(Biderman et al. [2024](https://arxiv.org/html/2606.12883#bib.bib17))。因此,α 常被视为学习率的次要替代品用于缩放更新,掩盖了其在减少超参数搜索以及更根本上塑造底层优化体制中的关键作用。
在这项工作中,我们通过联合实证与理论研究分析了 LoRA 的缩放机制。在广泛的超参数扫描中,我们一致观察到,有效优化更依赖于足够大的缩放因子 α,而非提高学习率 η。为了理解这一现象,我们开发了一个信号-漂移框架来描述 LoRA 的优化特性。在这一视角下,任务相关信号与双线性诱导的漂移对 α 和 η 的响应不同,为我们实证观察提供了原则性解释。这些实证与理论证据共同引出以下三个关键发现:
- **谱抑制导致缩放错位。** 我们发现 LoRA 的低秩参数化会引起任务 Hessian 的谱抑制,有效平滑优化景观。虽然这提高了稳定性,但也导致标准超参数过于保守,造成显著的优化缺口,并激发了先前工作中观察到的激进缩放实践(Hayou et al. [2024a](https://arxiv.org/html/2606.12883#bib.bib39); Schulman and Lab [2025](https://arxiv.org/html/2606.12883#bib.bib91); Zhang et al. [2025b](https://arxiv.org/html/2606.12883#bib.bib92))。
- **α 和 η 发挥根本不同的作用。** 实证上,我们观察到增大 α 比增大 η 能更一致地带来更好的收敛。我们的框架解释了这一点:α 放大任务对齐信号,而 η 同时放大信号和双线性漂移。因此,α 作为一种保持纯度的加速器,实现了更快、更稳定的优化。
- **最优缩放遵循次线性律。** 我们识别出最优 α 与秩 r 之间的次线性关系,可简洁地由具有大缩放系数的平方根律刻画。这表明常用的秩相关启发式方法(Hu et al. [2022](https://arxiv.org/html/2606.12883#bib.bib10); Biderman et al. [2024](https://arxiv.org/html/2606.12883#bib.bib17))运行在严重欠缩放区间。通过适当缩放,LoRA 可以直接采用全微调(FFT)中使用的标准小学习率,同时实现更优性能。
基于实证与理论发现,我们识别出当前 LoRA 实践中的一个关键局限:常用启发式方法将 α 限制在不足的幅度上,限制了 LoRA 的优化能力。为解决此问题,我们提出 LoRA-α,引入一个大基础值并配合平方根缩放律,将 α 恢复到原则性区间。这一公式使实践者能够绕过昂贵的超参数调优,直接采用标准 FFT 学习率。跨模型规模(184M–12B)、任务领域(自然语言、推理、多模态)和训练范式(监督、对比和强化学习)的大量实验表明,较大的 α 配合标准小 η 能持续获得更优性能。
总结来说,我们的贡献包括:
- **实证层面**,通过广泛的超参数扫描,我们建立了关于 LoRA 优化的三个关键发现。我们揭示性能关键取决于大的缩放因子,暴露了当前秩相关启发式方法导致 LoRA 拟合潜力未被充分利用的陷阱。
- **理论层面**,我们开发了信号-漂移框架,为这些发现提供原则性解释。通过刻画 Hessian 谱抑制,我们识别出 α 是更好的加速器,并推导出平方根律,使 LoRA 的优化体制与 FFT 对齐。
- **我们提出 LoRA-α**,一个极简框架,将缩放因子提升到其原则性区间,同时采用标准 FFT 学习率。跨不同模型、任务和训练范式,它在 LoRA 基础上显著提升,通常达到与 FFT 相当的性能。
图 1:Llama 3-1B 在 Tulu 3 数据集上的超参数分析。(a) 不同秩 r 和缩放因子 α 下,评估损失随学习率 η 的变化。灰色线条为每组 (r, α) 最小损失的线性拟合。增大 α 会降低最优损失并将 η* 向下移动。(b) 公式 (2) 中定义的缩放路径相对于基线(η_FFT = 2×10⁻⁵, α₀=16),其中 η_FFT 表示最优 FFT 学习率。改变 α 可以到达仅通过调整 η 无法触及的更低损失区间。(c) 在 η_FFT 下评估的最优缩放因子 α* 随秩 r 的变化。观察到的次线性趋势和 α 的大幅度挑战了传统缩放启发式方法。
## 2 LoRA 缩放的实证研究
为了研究 LoRA 的缩放行为,我们进行了系统性的超参数扫描,以刻画缩放因子 α、学习率 η 和秩 r 之间的相互作用。我们专注于**拟合行为**,将优化动态与泛化效应(如隐式低秩正则化(Jang et al. [2024](https://arxiv.org/html/2606.12883#bib.bib81))和任务多样性)分离开。这使得能够干净地分析优化景观,而泛化性能则在第 5 节中单独评估。
**优化设置与指标。** 遵循 Schulman and Lab [2025](https://arxiv.org/html/2606.12883#bib.bib91),我们在两个模型规模(Llama 3-1B 和 8B(Meta Team [2024](https://arxiv.org/html/2606.12883#bib.bib100)))和数据集(Tulu 3(Lambert et al. [2025](https://arxiv.org/html/2606.12883#bib.bib101))和 OpenThoughts(Guha et al. [2026](https://arxiv.org/html/2606.12883#bib.bib128)))上进行监督微调(SFT),每个配置训练一个 epoch,batch size 为 32,使用 AdamW。为清晰起见,我们报告 Llama 3-1B 在 Tulu 3 上的结果,其余结果请参见附录 D。
为了管理 α、η 和 r 的大搜索空间,我们使用 Tulu 3 的 10 万样本子集,最大 token 长度 T=1024,并预留 1 万样本作为代理评估集 D_prox。令 θ(r, η, α) 表示在给定配置下训练得到的参数。我们通过期望负对数似然(NLL)评估拟合:L(r, η, α) = E_{x ~ D_prox} [ - Σ_{t=1}^T log P(x_t | x_{<t}) ]。
η>0 的情况:
- **情况 1:标准梯度下降(GD)。** 在 GD 下,Δθ = -η ∇_θ l。对齐导出 ℓ₂ 范数的平方:⟨Δθ, -∇_θ l⟩ = ⟨-η ∇_θ l, -∇_θ l⟩ = η ||∇_θ l||₂² ≥ 0。 (23)
- **情况 2:Adam(符号梯度)。** 为分离 Adam 自适应分母的几何效应,我们将其更新规则抽象为缩放符号梯度下降,逐元素应用 Δθ = -η sign(∇_θ l)。由于 x·sign(x)=|x|,对齐归约为 ℓ₁ 范数:⟨Δθ, -∇_θ l⟩ = η Σ_i sign([∇_θ l]_i)[∇_θ l]_i = η ||∇_θ l||₁ ≥ 0。 (24)
- **情况 3:Muon(正交化梯度)。** Muon 直接对矩阵参数操作。令 X∈{A,B} 表示参数块,梯度为 G_X = ∇_X l。使用紧凑 SVD,G_X = U_X Σ_X V_X^⊤。Muon 舍弃奇异值得到正交化更新 ΔX = -η U_X V_X^⊤。总参数对齐是各块对齐之和。利用迹内积 ⟨A,B⟩ = Tr(A^⊤B) 及其循环置换性质:⟨ΔX, -G_X⟩ = Tr( (-η U_X V_X^⊤)^⊤ (-U_X Σ_X V_X^⊤) ) = η Tr( V_X U_X^⊤ U_X Σ_X V_X^⊤ ) = η Tr( Σ_X V_X^⊤ V_X ) = η Tr(Σ_X)。由于 Tr(Σ_X) 是奇异值之和,它正好等于核范数 ||G_X||_*。汇总所有适配器块得到:⟨Δθ, -∇_θ l⟩ = η( ||G_A||_* + ||G_B||_* ) ≥ 0。 (28)
在所有情况下,更新严格与负梯度对齐,保证信号项模仿了用不同几何范数度量的有效 FFT 下降方向。
2. H_Signal 的半正定性:回忆分解 H_Signal = J(θ)^⊤ H_l J(θ)。假设任务景观局部凸,即任务 Hessian 半正定 (H_l ⪰ 0)。对于任意非零向量 v∈R^p,有:v^⊤ H_Signal v = v^⊤ (J(θ)^⊤ H_l J(θ)) v = (J(θ) v)^⊤ H_l (J(θ) v)。令 u ≔ J(θ) v ∈ R^D。由于 H_l ⪰ 0,对所有 u 有 u^⊤ H_l u ≥ 0。因此 v^⊤ H_Signal v ≥ 0,证明 H_Signal ⪰ 0。
第二部分:性质相似文章
Hybrid-LoRA:桥接全微调与低秩适应的后训练方法
Hybrid-LoRA提出了一种框架,选择性地对一小部分模块进行全微调,同时对其他模块使用LoRA,在显著降低计算成本的同时实现了接近全微调的性能。实验表明,与现有参数高效基线方法相比,性能提升高达5.65%。
超越LoRA:稀疏诱导的适配是否更好?
本文提出了对LoRA的稀疏诱导适配方法,包括廉价LoRA(cLA)和链式循环变体(c³LA),并提供了理论泛化界以及实证评估,结果显示在保持竞争性性能的同时,训练时间最多减少10%,峰值GPU内存节省最多15%。
基于可学习秩的参数高效微调
来自阿德莱德大学的研究人员提出了 LR-LoRA(可学习秩 LoRA),这是一种参数高效微调方法,在训练过程中动态学习每个 Transformer 层的适配器秩,而非使用固定的全局秩。LR-LoRA 在语言理解和常识推理基准测试上达到了最先进的性能,超越了固定秩 LoRA 基线。
LoRA 与权重衰减 (2023)
这篇博客文章探讨了LoRA与权重衰减的相互作用如何导致与全参微调不同的优化目标,其中权重被正则化到初始模型而不是零。它解释了对实践者的影响。
LoRA如何记忆?面向LLM微调的参数化记忆定律
本文使用LoRA作为探针,研究了大语言模型中参数化记忆的定量极限,建立了幂律关系,并引入了一种名为MemFT的阈值引导优化方法,以提升记忆性能。