FoRA: Fisher正交秩适应实现参数高效微调

arXiv cs.CL 论文

摘要

FoRA提出了一种参数高效微调方法,通过Fisher评分选择任务相关层,并在Stiefel流形上训练LoRA下投影,在保持精度的同时减少参数。

arXiv:2605.29317v1 公告类型: 新 摘要: 参数高效微调(PEFT)主要集中在LoRA及其面向精度的变体上,而减少可训练参数这一原始目标相对被忽视。我们提出FoRA,通过减少适配层数量而非适配器秩来重新审视这一目标。FoRA通过单遍对角Fisher评分(训练成本低于1%)选择任务相关层,并在所选层上于Stiefel流形中训练LoRA下投影,保持列正交性和有效秩。在五个LLaMA家族骨干模型上,FoRA以一半参数预算持续优于LoRA和DoRA,并以四分之一的参数量达到AdaLoRA 0.7-0.8精度点以内。跨架构实验在LLaMA、Qwen3和Gemma家族的十二个骨干模型上进行,从270M到32B参数均证实了持续增益。这两个组件具有超加性组合效果:单用Fisher选择在相同预算下即可匹配秩缩减,而Stiefel约束提供了决定性的额外增益。
查看原文
查看缓存全文

缓存时间: 2026/05/29 09:18

# 基于Fisher正交秩的参数高效微调 (Fisher-orthogonal Rank Adaptation for Parameter-Efficient Fine-Tuning)
来源: https://arxiv.org/html/2605.29317
Juneyoung Park¹, Seongbae Lee¹, Han-Sang Lee², Kyuho Lee², Minjae Kim², Seungheon Hyeon², KIDUK KWON²††thanks:通讯作者: Seungheon Hyeon, KIDUK KWON, Seongwan Kim, Jaeho Lee.¹OptAI Inc.: \{jyoung.park, sbae.lee, swan.kim, jaeho.lee\}@opt-ai.kr²LG Uplus: \{hansanglee, kyuholee, minjaekim, sheon, kwonkiduk\}@lguplus.co.kr, Seongwan Kim¹††thanks:通讯作者: Seungheon Hyeon, KIDUK KWON, Seongwan Kim, Jaeho Lee.¹OptAI Inc.: \{jyoung.park, sbae.lee, swan.kim, jaeho.lee\}@opt-ai.kr²LG Uplus: \{hansanglee, kyuholee, minjaekim, sheon, kwonkiduk\}@lguplus.co.kr, Jaeho Lee¹††thanks:通讯作者: Seungheon Hyeon, KIDUK KWON, Seongwan Kim, Jaeho Lee.¹OptAI Inc.: \{jyoung.park, sbae.lee, swan.kim, jaeho.lee\}@opt-ai.kr²LG Uplus: \{hansanglee, kyuholee, minjaekim, sheon, kwonkiduk\}@lguplus.co.kr
¹OptAI Inc, ²LG Uplus

###### 摘要

参数高效微调 (PEFT) 主要关注 LoRA 及其面向精度的变体,但减少可训练参数这一原始目标却相对较少受到关注。我们提出了 FoRA,它通过减少适配层数而非降低适配器秩来重新审视这一目标。FoRA 通过单次前向-反向传播的对角 Fisher 得分(训练成本低于 1%)选取对任务信息有帮助的层,并在 Stiefel 流形上训练所选层的 LoRA 下投影,从而保持列正交性和有效秩。FoRA 在参数预算减半的情况下持续优于 LoRA 和 DoRA,并且在参数数量仅为 AdaLoRA 四分之一时,其精度差距在 0.7–0.8 个百分点以内,在五个 LLaMA 系列骨干网络上均得到验证。在来自 LLaMA、Qwen3 和 Gemma 系列的十二个骨干网络(参数规模从 2.7 亿到 320 亿)上的跨架构实验证实了持续的性能提升。这两个组件以超加性方式结合:仅 Fisher 选择就能在相同预算下达到与秩缩减相当的效果,而 Stiefel 约束则提供了决定性的额外增益。

FoRA: 基于 Fisher 正交秩的参数高效微调 (Fisher-orthogonal Rank Adaptation for Parameter-Efficient Fine-Tuning)

Juneyoung Park¹, Seongbae Lee¹, Han-Sang Lee², Kyuho Lee², Minjae Kim², Seungheon Hyeon²††thanks:通讯作者: Seungheon Hyeon, KIDUK KWON, Seongwan Kim, Jaeho Lee.¹OptAI Inc.: \{jyoung.park, sbae.lee, swan.kim, jaeho.lee\}@opt-ai.kr²LG Uplus: \{hansanglee, kyuholee, minjaekim, sheon, kwonkiduk\}@lguplus.co.kr, KIDUK KWON²††thanks:通讯作者: Seungheon Hyeon, KIDUK KWON, Seongwan Kim, Jaeho Lee.¹OptAI Inc.: \{jyoung.park, sbae.lee, swan.kim, jaeho.lee\}@opt-ai.kr²LG Uplus: \{hansanglee, kyuholee, minjaekim, sheon, kwonkiduk\}@lguplus.co.kr, Seongwan Kim¹††thanks:通讯作者: Seungheon Hyeon, KIDUK KWON, Seongwan Kim, Jaeho Lee.¹OptAI Inc.: \{jyoung.park, sbae.lee, swan.kim, jaeho.lee\}@opt-ai.kr²LG Uplus: \{hansanglee, kyuholee, minjaekim, sheon, kwonkiduk\}@lguplus.co.kr, Jaeho Lee¹††thanks:通讯作者: Seungheon Hyeon, KIDUK KWON, Seongwan Kim, Jaeho Lee.¹OptAI Inc.: \{jyoung.park, sbae.lee, swan.kim, jaeho.lee\}@opt-ai.kr²LG Uplus: \{hansanglee, kyuholee, minjaekim, sheon, kwonkiduk\}@lguplus.co.kr
¹OptAI Inc, ²LG Uplus

## 1 引言

LoRA (Hu et al., 2022 (https://arxiv.org/html/2605.29317#bib.bib8)) 已成为参数高效微调 (PEFT) 的事实标准,它冻结预训练权重,仅学习一个小的低秩更新 ΔW=BA。后续工作,包括 DoRA (Liu et al., 2024a (https://arxiv.org/html/2605.29317#bib.bib9))、rsLoRA (Kalajdzievski, 2023 (https://arxiv.org/html/2605.29317#bib.bib10)) 和 PiSSA (Meng et al., 2024 (https://arxiv.org/html/2605.29317#bib.bib11)),都专注于在固定参数预算下提高精度或改善训练动态。最近的研究报告指出,训练后的 LoRA 适配器的有效秩通常远低于名义秩 (Biderman et al., 2024 (https://arxiv.org/html/2605.29317#bib.bib12); Hayou et al., 2024 (https://arxiv.org/html/2605.29317#bib.bib13)),这表明沿精度导向这一轴的改进空间正在收窄。

LoRA 的原始目标——参数效率本身,却相对较少受到关注。在 LoRA 系列中减少参数通常意味着降低秩 r。这直接缩小了每个适配器可表示的子空间,在最需要适配的层失去了表达能力。层级别的方法如 LISA (Pan et al., 2024 (https://arxiv.org/html/2605.29317#bib.bib14)) 和 LoRA-drop (Zhou et al., 2024 (https://arxiv.org/html/2605.29317#bib.bib15)) 尝试选择性适配,但依赖于随机层采样或事后剪枝,这两种方法都会增加开销,或者在选择确定之前需要进行一次完整的训练。AdaLoRA (Zhang et al., 2023 (https://arxiv.org/html/2605.29317#bib.bib17)) 动态地在各层之间重新分配秩,但每一步都需要重新计算基于 SVD 的重要性,并引入了多个调度超参数。

我们采取了不同的方法:不是削减秩,而是减少适配层的数量,同时保持每个适配器的秩不变。仅适配少量信息丰富的层,在参数数量减半的情况下,可以达到相当或更优的性能。我们使用在微调开始前(训练成本低于 1%)通过单次前向-反向传播计算的经验对角 Fisher 得分来识别这些层,并在整个训练过程中保持选择不变。

减少层数也会将任务压力集中在剩余的适配器上。为了确保每个适配器充分利用其容量,我们通过 Cayley 参数化 (Wen and Yin, 2013 (https://arxiv.org/html/2605.29317#bib.bib21)) 将 LoRA 下投影 B 约束到列正交矩阵的 Stiefel 流形上。这强制利用了每个适配器的所有 r 个正交方向,防止了文献中报告的无约束 LoRA 的谱崩溃 (Biderman et al., 2024 (https://arxiv.org/html/2605.29317#bib.bib12); Hayou et al., 2024 (https://arxiv.org/html/2605.29317#bib.bib13))。

我们将这两个想法结合成 FoRA (Fisher-orthogonal Rank Adaptation, 基于 Fisher 正交秩的适配):Fisher 决定“在哪里”适配,而 Stiefel 约束则塑造“如何”使用该容量。这两个组件在设计上是正交的,并且如我们的消融实验所证实,它们以超加性方式结合。

我们的贡献是:(i) 一种静态的基于 Fisher 的层选择准则,将适配层数减半,校准成本低于 1%,使得 FoRA 在参数预算减半的情况下优于 LoRA 和 DoRA,并在参数数量仅为 AdaLoRA 四分之一时,精度差距在 0.7–0.8 个百分点以内;(ii) 一种 Stiefel 约束的适配器,将有效秩从名义秩的 0.71 恢复到 0.88,并与层选择以超加性方式结合;(iii) 在来自 LLaMA、Qwen3 和 Gemma 系列的十二个骨干网络(参数规模从 2.7 亿到 320 亿)上的一致验证。

参照图注图 1: FoRA 概述。FoRA 使用校准数据通过对角 Fisher 信息对 Transformer 层进行评分,选择 Top-K 信息量最大的层进行适配,并仅在这些层上应用 Stiefel 约束的 LoRA,其余层保持冻结。

## 2 相关工作

LoRA 及其变体。LoRA (Hu et al., 2022 (https://arxiv.org/html/2605.29317#bib.bib8)) 冻结预训练权重 W₀ 并学习一个低秩更新 ΔW=BA。后续方法在固定参数预算下提高了精度或训练稳定性:DoRA (Liu et al., 2024a (https://arxiv.org/html/2605.29317#bib.bib9)) 将更新分解为幅度和方向;rsLoRA (Kalajdzievski, 2023 (https://arxiv.org/html/2605.29317#bib.bib10)) 修正了秩缩放;PiSSA (Meng et al., 2024 (https://arxiv.org/html/2605.29317#bib.bib11)) 从主导奇异向量初始化;LoRA+ (Hayou et al., 2024 (https://arxiv.org/html/2605.29317#bib.bib13)) 对 A 和 B 使用非对称学习率。这些方法可以与基础模型量化相结合,如 QLoRA (Dettmers et al., 2023 (https://arxiv.org/html/2605.29317#bib.bib39))。尽管有这些改进,训练后适配器的有效秩通常远低于名义秩 r (Biderman et al., 2024 (https://arxiv.org/html/2605.29317#bib.bib12); Hayou et al., 2024 (https://arxiv.org/html/2605.29317#bib.bib13)),限制了沿这一轴的进一步收益。

选择性的层级别微调。AdaLoRA (Zhang et al., 2023 (https://arxiv.org/html/2605.29317#bib.bib17)) 使用每步重新计算的基于 SVD 的重要性分数动态地重新分配每层的秩。LISA (Pan et al., 2024 (https://arxiv.org/html/2605.29317#bib.bib14)) 在每次迭代中随机采样一个层子集,LoRA-drop (Zhou et al., 2024 (https://arxiv.org/html/2605.29317#bib.bib15)) 通过输出幅度事后剪枝适配器。这三种方法都在训练期间或之后确定层集合,引入了校准开销,或者在选择确定之前需要进行一次完整的前向传播。FoRA 则在微调开始前通过单次前向-反向传播计算 Fisher 得分,并在整个训练过程中保持选择静态。

正交与流形约束。OFT (Qiu et al., 2023 (https://arxiv.org/html/2605.29317#bib.bib32)) 和 BOFT (Liu et al., 2024b (https://arxiv.org/html/2605.29317#bib.bib33)) 将权重更新约束为正交变换,以保持神经元激活之间的超球面能量。VeRA (Kopiczko et al., 2024 (https://arxiv.org/html/2605.29317#bib.bib16)) 采用极端压缩方法,在所有层之间共享一对固定的随机矩阵,仅学习每层的缩放向量,将每个适配器锁定在固定的随机子空间中,同时最小化可训练参数。在 LoRA 系列中,Park et al. (2025 (https://arxiv.org/html/2605.29317#bib.bib40)) 通过 Cayley 参数化 (Wen and Yin, 2013 (https://arxiv.org/html/2605.29317#bib.bib21)) 在列正交矩阵的 Stiefel 流形上优化下投影 B,表明该约束可以防止谱崩溃并恢复适配器输出的有效秩。

因此,FoRA 整合了基于 Fisher 的静态层选择与 Stiefel 约束的下投影,同时高效地优化了适配器放置和秩利用率。

## 3 方法

预备知识。我们采用标准的 LoRA (Hu et al., 2022 (https://arxiv.org/html/2605.29317#bib.bib8)) 参数化。对于一个预训练线性权重 W₀ ∈ ℝ^{d_out × d_in} 在 Transformer 层中,LoRA 冻结 W₀ 并添加一个低秩更新

W = W₀ + ΔW,   ΔW = BA,                     (1)

其中 A ∈ ℝ^{r × d_in}, B ∈ ℝ^{d_out × r}, 且 r ≪ min(d_out, d_in)。我们将 L 个 Transformer 层集合记为 {ℓ₁, ..., ℓ_L},并将层 ℓ 上所有可训练适配器参数的并集记为 θ_ℓ = {A_ℓ, B_ℓ},覆盖所有目标模块。遵循 Hu et al. (2023 (https://arxiv.org/html/2605.29317#bib.bib23)),每个适配层上的目标模块是三个自注意力投影 {q, k, v} 和两个 MLP 投影 {up, down},每层共五个投影。标准 LoRA 对每一层应用适配器,可训练参数总数为 L⋅M⋅r(d_in + d_out),其中 M 是每层的目标模块数。我们的目标是减少携带适配器的层数,同时保持每个适配器的容量。

基于 Fisher 的层选择。我们使用一个限制在该层参数上的块对角经验 Fisher 得分来衡量层 ℓ 对任务的重要性,

F_ℓ = (1/N) ∑_{n=1}^N ∑_{θ ∈ θ_ℓ^{base}} ‖ ∇_θ L(x_n, y_n) ‖²,   (2)

其中 θ_ℓ^{base} 是层 ℓ 的基础模型参数(而非适配器),L 是任务损失,N 是用于估计的微批次数。公式 (2) 对应每层的经验 Fisher 对角迹,它作为一个正半定曲率代理,对每层重参数化不变 (Amari, 1998 (https://arxiv.org/html/2605.29317#bib.bib20))。我们在训练前使用基础模型在 N 个微批次上进行一次前向-反向传播来计算 F_ℓ,并选择

S = TopK({F_ℓ}_{ℓ=1}^L, K),                (3)

即得分最高的 K 层的索引集合。适配器仅插入在 S 中的层,且 S 在整个训练运行中保持固定。成本主要由基础模型上的 N 次前向-反向传播决定,低于完整训练预算的百分之一。我们使用经验 Fisher(观测标签上的梯度)而非真实 Fisher;这种偏差对所有层的影响相当,不会改变用于选择的相对排名 (Kunstner et al., 2019 (https://arxiv.org/html/2605.29317#bib.bib22))。

Stiefel 约束的适配器训练。对于每个被选中的层 ℓ ∈ S,我们将下投影 B_ℓ 约束在列正交矩阵的 Stiefel 流形上,建立在先前将此约束引入 LoRA 的工作基础上 (Park et al., 2025 (https://arxiv.org/html/2605.29317#bib.bib40))。

St(d_out, r) = { B ∈ ℝ^{d_out × r} : B^T B = I_r }.   (4)

这促使每个秩为 r 的适配器在输出空间中跨越 r 个正交方向。其结构后果比单纯保持秩更强,如下面的引理所明确阐述。

###### 引理 1

如果 B ∈ St(d_out, r),则对于每个 A ∈ ℝ^{r × d_in},BA 的奇异值与 A 的奇异值一致:

σ_i(BA) = σ_i(A) 对所有 i = 1, ..., r 成立。

表 1: 五个 LLaMA 系列骨干网络(跨越两代模型)在七任务常识推理基准上的准确率。Params (M) 是可训练参数数量(百万)。FoRA 使用的可训练参数约为 LoRA 系列方法的一半,同时达到或超越其准确率。

简短证明见附录 C (https://arxiv.org/html/2605.29317#A3)。引理意味着 rank(ΔW) = rank(A),更重要的是,基于熵的有效秩 erank(BA) = erank(A)。Stiefel 约束消除了下投影侧的结构性崩溃,将 ΔW 的有效秩保持简化为对 A 的优化。关键的是,保持严格的列正交性 (B^T B = I_r) 起到了隐式正则化的作用;由此产生的几何屏蔽防止了反向传播到 A 的梯度中出现幅度失真或方向偏差。这稳定了 A 的欧几里得优化,并防止了快速的奇异值衰减,有效地缓解了无约束 LoRA 中广泛报告的谱崩溃 (Biderman et al., 2024 (https://arxiv.org/html/2605.29317#bib.bib12); Hayou et al., 2024 (https://arxiv.org/html/2605.29317#bib.bib13)),这在其光谱分析中得到验证 (Hayou et al., 2024 (https://arxiv.org/html/2605.29317#bib.bib13))。该机制通过我们在第 5.3 节 (https://arxiv.org/html/2605.29317#S5.SS3) 中的谱分析得到经验验证。我们在整个训练过程中使用 Cayley 参数化 (Wen and Yin, 2013 (https://arxiv.org/html/2605.29317#bib.bib21)) 保持该约束。令 G_ℓ = ∂L/∂B_ℓ 为欧几里得梯度。我们构造斜对称方向

W = Ŵ - Ŵ^T,                                    (5)
Ŵ = G_ℓ B_ℓ^T - ½ B_ℓ B_ℓ^T G_ℓ B_ℓ^T,

这是 L 在 St(d_out, r) 上 B_ℓ 处的黎曼梯度 (Wen and Yin, 2013 (https://arxiv.org/html/2605.29317#bib.bib21))。给定 W 和步长 α,Cayley 更新为

Q = (I - ½α W)^{-1} (I + ½α W),

相似文章

FuRA:基于频谱预条件的全秩参数高效微调

arXiv cs.LG

FuRA 提出了一种基于频谱预条件的全秩参数高效微调方法,通过块张量列车分解实现,在保持 LoRA 级别效率的同时达到比全微调更高的准确率。它在 LLM 和 VLM 任务上优于 LoRA 和全微调。

Hybrid-LoRA:桥接全微调与低秩适应的后训练方法

arXiv cs.LG

Hybrid-LoRA提出了一种框架,选择性地对一小部分模块进行全微调,同时对其他模块使用LoRA,在显著降低计算成本的同时实现了接近全微调的性能。实验表明,与现有参数高效基线方法相比,性能提升高达5.65%。

基于可学习秩的参数高效微调

arXiv cs.CL

来自阿德莱德大学的研究人员提出了 LR-LoRA(可学习秩 LoRA),这是一种参数高效微调方法,在训练过程中动态学习每个 Transformer 层的适配器秩,而非使用固定的全局秩。LR-LoRA 在语言理解和常识推理基准测试上达到了最先进的性能,超越了固定秩 LoRA 基线。