FoRA: Fisher正交秩适应实现参数高效微调

arXiv cs.CL 2026/05/29 04:00 论文

parameter-efficient-fine-tuning lora fisher-information stiefel-manifold layer-selection llm-finetuning arxiv

摘要

FoRA提出了一种参数高效微调方法，通过Fisher评分选择任务相关层，并在Stiefel流形上训练LoRA下投影，在保持精度的同时减少参数。

arXiv:2605.29317v1 公告类型: 新摘要: 参数高效微调(PEFT)主要集中在LoRA及其面向精度的变体上，而减少可训练参数这一原始目标相对被忽视。我们提出FoRA，通过减少适配层数量而非适配器秩来重新审视这一目标。FoRA通过单遍对角Fisher评分（训练成本低于1%）选择任务相关层，并在所选层上于Stiefel流形中训练LoRA下投影，保持列正交性和有效秩。在五个LLaMA家族骨干模型上，FoRA以一半参数预算持续优于LoRA和DoRA，并以四分之一的参数量达到AdaLoRA 0.7-0.8精度点以内。跨架构实验在LLaMA、Qwen3和Gemma家族的十二个骨干模型上进行，从270M到32B参数均证实了持续增益。这两个组件具有超加性组合效果：单用Fisher选择在相同预算下即可匹配秩缩减，而Stiefel约束提供了决定性的额外增益。

查看原文

查看缓存全文

缓存时间: 2026/05/29 09:18

# 基于Fisher正交秩的参数高效微调 (Fisher-orthogonal Rank Adaptation for Parameter-Efficient Fine-Tuning)
来源: https://arxiv.org/html/2605.29317
Juneyoung Park¹, Seongbae Lee¹, Han-Sang Lee², Kyuho Lee², Minjae Kim², Seungheon Hyeon², KIDUK KWON²††thanks:通讯作者: Seungheon Hyeon, KIDUK KWON, Seongwan Kim, Jaeho Lee.¹OptAI Inc.: \{jyoung.park, sbae.lee, swan.kim, jaeho.lee\}@opt-ai.kr²LG Uplus: \{hansanglee, kyuholee, minjaekim, sheon, kwonkiduk\}@lguplus.co.kr, Seongwan Kim¹††thanks:通讯作者: Seungheon Hyeon, KIDUK KWON, Seongwan Kim, Jaeho Lee.¹OptAI Inc.: \{jyoung.park, sbae.lee, swan.kim, jaeho.lee\}@opt-ai.kr²LG Uplus: \{hansanglee, kyuholee, minjaekim, sheon, kwonkiduk\}@lguplus.co.kr, Jaeho Lee¹††thanks:通讯作者: Seungheon Hyeon, KIDUK KWON, Seongwan Kim, Jaeho Lee.¹OptAI Inc.: \{jyoung.park, sbae.lee, swan.kim, jaeho.lee\}@opt-ai.kr²LG Uplus: \{hansanglee, kyuholee, minjaekim, sheon, kwonkiduk\}@lguplus.co.kr
¹OptAI Inc, ²LG Uplus

###### 摘要

参数高效微调 (PEFT) 主要关注 LoRA 及其面向精度的变体，但减少可训练参数这一原始目标却相对较少受到关注。我们提出了 FoRA，它通过减少适配层数而非降低适配器秩来重新审视这一目标。FoRA 通过单次前向-反向传播的对角 Fisher 得分（训练成本低于 1%）选取对任务信息有帮助的层，并在 Stiefel 流形上训练所选层的 LoRA 下投影，从而保持列正交性和有效秩。FoRA 在参数预算减半的情况下持续优于 LoRA 和 DoRA，并且在参数数量仅为 AdaLoRA 四分之一时，其精度差距在 0.7–0.8 个百分点以内，在五个 LLaMA 系列骨干网络上均得到验证。在来自 LLaMA、Qwen3 和 Gemma 系列的十二个骨干网络（参数规模从 2.7 亿到 320 亿）上的跨架构实验证实了持续的性能提升。这两个组件以超加性方式结合：仅 Fisher 选择就能在相同预算下达到与秩缩减相当的效果，而 Stiefel 约束则提供了决定性的额外增益。

FoRA: 基于 Fisher 正交秩的参数高效微调 (Fisher-orthogonal Rank Adaptation for Parameter-Efficient Fine-Tuning)

Juneyoung Park¹, Seongbae Lee¹, Han-Sang Lee², Kyuho Lee², Minjae Kim², Seungheon Hyeon²††thanks:通讯作者: Seungheon Hyeon, KIDUK KWON, Seongwan Kim, Jaeho Lee.¹OptAI Inc.: \{jyoung.park, sbae.lee, swan.kim, jaeho.lee\}@opt-ai.kr²LG Uplus: \{hansanglee, kyuholee, minjaekim, sheon, kwonkiduk\}@lguplus.co.kr, KIDUK KWON²††thanks:通讯作者: Seungheon Hyeon, KIDUK KWON, Seongwan Kim, Jaeho Lee.¹OptAI Inc.: \{jyoung.park, sbae.lee, swan.kim, jaeho.lee\}@opt-ai.kr²LG Uplus: \{hansanglee, kyuholee, minjaekim, sheon, kwonkiduk\}@lguplus.co.kr, Seongwan Kim¹††thanks:通讯作者: Seungheon Hyeon, KIDUK KWON, Seongwan Kim, Jaeho Lee.¹OptAI Inc.: \{jyoung.park, sbae.lee, swan.kim, jaeho.lee\}@opt-ai.kr²LG Uplus: \{hansanglee, kyuholee, minjaekim, sheon, kwonkiduk\}@lguplus.co.kr, Jaeho Lee¹††thanks:通讯作者: Seungheon Hyeon, KIDUK KWON, Seongwan Kim, Jaeho Lee.¹OptAI Inc.: \{jyoung.park, sbae.lee, swan.kim, jaeho.lee\}@opt-ai.kr²LG Uplus: \{hansanglee, kyuholee, minjaekim, sheon, kwonkiduk\}@lguplus.co.kr
¹OptAI Inc, ²LG Uplus

## 1 引言

LoRA (Hu et al., 2022 (https://arxiv.org/html/2605.29317#bib.bib8)) 已成为参数高效微调 (PEFT) 的事实标准，它冻结预训练权重，仅学习一个小的低秩更新 ΔW=BA。后续工作，包括 DoRA (Liu et al., 2024a (https://arxiv.org/html/2605.29317#bib.bib9))、rsLoRA (Kalajdzievski, 2023 (https://arxiv.org/html/2605.29317#bib.bib10)) 和 PiSSA (Meng et al., 2024 (https://arxiv.org/html/2605.29317#bib.bib11))，都专注于在固定参数预算下提高精度或改善训练动态。最近的研究报告指出，训练后的 LoRA 适配器的有效秩通常远低于名义秩 (Biderman et al., 2024 (https://arxiv.org/html/2605.29317#bib.bib12); Hayou et al., 2024 (https://arxiv.org/html/2605.29317#bib.bib13))，这表明沿精度导向这一轴的改进空间正在收窄。

LoRA 的原始目标——参数效率本身，却相对较少受到关注。在 LoRA 系列中减少参数通常意味着降低秩 r。这直接缩小了每个适配器可表示的子空间，在最需要适配的层失去了表达能力。层级别的方法如 LISA (Pan et al., 2024 (https://arxiv.org/html/2605.29317#bib.bib14)) 和 LoRA-drop (Zhou et al., 2024 (https://arxiv.org/html/2605.29317#bib.bib15)) 尝试选择性适配，但依赖于随机层采样或事后剪枝，这两种方法都会增加开销，或者在选择确定之前需要进行一次完整的训练。AdaLoRA (Zhang et al., 2023 (https://arxiv.org/html/2605.29317#bib.bib17)) 动态地在各层之间重新分配秩，但每一步都需要重新计算基于 SVD 的重要性，并引入了多个调度超参数。

我们采取了不同的方法：不是削减秩，而是减少适配层的数量，同时保持每个适配器的秩不变。仅适配少量信息丰富的层，在参数数量减半的情况下，可以达到相当或更优的性能。我们使用在微调开始前（训练成本低于 1%）通过单次前向-反向传播计算的经验对角 Fisher 得分来识别这些层，并在整个训练过程中保持选择不变。

减少层数也会将任务压力集中在剩余的适配器上。为了确保每个适配器充分利用其容量，我们通过 Cayley 参数化 (Wen and Yin, 2013 (https://arxiv.org/html/2605.29317#bib.bib21)) 将 LoRA 下投影 B 约束到列正交矩阵的 Stiefel 流形上。这强制利用了每个适配器的所有 r 个正交方向，防止了文献中报告的无约束 LoRA 的谱崩溃 (Biderman et al., 2024 (https://arxiv.org/html/2605.29317#bib.bib12); Hayou et al., 2024 (https://arxiv.org/html/2605.29317#bib.bib13))。

我们将这两个想法结合成 FoRA (Fisher-orthogonal Rank Adaptation, 基于 Fisher 正交秩的适配)：Fisher 决定“在哪里”适配，而 Stiefel 约束则塑造“如何”使用该容量。这两个组件在设计上是正交的，并且如我们的消融实验所证实，它们以超加性方式结合。

我们的贡献是：(i) 一种静态的基于 Fisher 的层选择准则，将适配层数减半，校准成本低于 1%，使得 FoRA 在参数预算减半的情况下优于 LoRA 和 DoRA，并在参数数量仅为 AdaLoRA 四分之一时，精度差距在 0.7–0.8 个百分点以内；(ii) 一种 Stiefel 约束的适配器，将有效秩从名义秩的 0.71 恢复到 0.88，并与层选择以超加性方式结合；(iii) 在来自 LLaMA、Qwen3 和 Gemma 系列的十二个骨干网络（参数规模从 2.7 亿到 320 亿）上的一致验证。

参照图注图 1: FoRA 概述。FoRA 使用校准数据通过对角 Fisher 信息对 Transformer 层进行评分，选择 Top-K 信息量最大的层进行适配，并仅在这些层上应用 Stiefel 约束的 LoRA，其余层保持冻结。

## 2 相关工作

LoRA 及其变体。LoRA (Hu et al., 2022 (https://arxiv.org/html/2605.29317#bib.bib8)) 冻结预训练权重 W₀ 并学习一个低秩更新 ΔW=BA。后续方法在固定参数预算下提高了精度或训练稳定性：DoRA (Liu et al., 2024a (https://arxiv.org/html/2605.29317#bib.bib9)) 将更新分解为幅度和方向；rsLoRA (Kalajdzievski, 2023 (https://arxiv.org/html/2605.29317#bib.bib10)) 修正了秩缩放；PiSSA (Meng et al., 2024 (https://arxiv.org/html/2605.29317#bib.bib11)) 从主导奇异向量初始化；LoRA+ (Hayou et al., 2024 (https://arxiv.org/html/2605.29317#bib.bib13)) 对 A 和 B 使用非对称学习率。这些方法可以与基础模型量化相结合，如 QLoRA (Dettmers et al., 2023 (https://arxiv.org/html/2605.29317#bib.bib39))。尽管有这些改进，训练后适配器的有效秩通常远低于名义秩 r (Biderman et al., 2024 (https://arxiv.org/html/2605.29317#bib.bib12); Hayou et al., 2024 (https://arxiv.org/html/2605.29317#bib.bib13))，限制了沿这一轴的进一步收益。

选择性的层级别微调。AdaLoRA (Zhang et al., 2023 (https://arxiv.org/html/2605.29317#bib.bib17)) 使用每步重新计算的基于 SVD 的重要性分数动态地重新分配每层的秩。LISA (Pan et al., 2024 (https://arxiv.org/html/2605.29317#bib.bib14)) 在每次迭代中随机采样一个层子集，LoRA-drop (Zhou et al., 2024 (https://arxiv.org/html/2605.29317#bib.bib15)) 通过输出幅度事后剪枝适配器。这三种方法都在训练期间或之后确定层集合，引入了校准开销，或者在选择确定之前需要进行一次完整的前向传播。FoRA 则在微调开始前通过单次前向-反向传播计算 Fisher 得分，并在整个训练过程中保持选择静态。

正交与流形约束。OFT (Qiu et al., 2023 (https://arxiv.org/html/2605.29317#bib.bib32)) 和 BOFT (Liu et al., 2024b (https://arxiv.org/html/2605.29317#bib.bib33)) 将权重更新约束为正交变换，以保持神经元激活之间的超球面能量。VeRA (Kopiczko et al., 2024 (https://arxiv.org/html/2605.29317#bib.bib16)) 采用极端压缩方法，在所有层之间共享一对固定的随机矩阵，仅学习每层的缩放向量，将每个适配器锁定在固定的随机子空间中，同时最小化可训练参数。在 LoRA 系列中，Park et al. (2025 (https://arxiv.org/html/2605.29317#bib.bib40)) 通过 Cayley 参数化 (Wen and Yin, 2013 (https://arxiv.org/html/2605.29317#bib.bib21)) 在列正交矩阵的 Stiefel 流形上优化下投影 B，表明该约束可以防止谱崩溃并恢复适配器输出的有效秩。

因此，FoRA 整合了基于 Fisher 的静态层选择与 Stiefel 约束的下投影，同时高效地优化了适配器放置和秩利用率。

## 3 方法

预备知识。我们采用标准的 LoRA (Hu et al., 2022 (https://arxiv.org/html/2605.29317#bib.bib8)) 参数化。对于一个预训练线性权重 W₀ ∈ ℝ^{d_out × d_in} 在 Transformer 层中，LoRA 冻结 W₀ 并添加一个低秩更新

W = W₀ + ΔW,   ΔW = BA,                     (1)

其中 A ∈ ℝ^{r × d_in}, B ∈ ℝ^{d_out × r}, 且 r ≪ min(d_out, d_in)。我们将 L 个 Transformer 层集合记为 {ℓ₁, ..., ℓ_L}，并将层 ℓ 上所有可训练适配器参数的并集记为 θ_ℓ = {A_ℓ, B_ℓ}，覆盖所有目标模块。遵循 Hu et al. (2023 (https://arxiv.org/html/2605.29317#bib.bib23))，每个适配层上的目标模块是三个自注意力投影 {q, k, v} 和两个 MLP 投影 {up, down}，每层共五个投影。标准 LoRA 对每一层应用适配器，可训练参数总数为 L⋅M⋅r(d_in + d_out)，其中 M 是每层的目标模块数。我们的目标是减少携带适配器的层数，同时保持每个适配器的容量。

基于 Fisher 的层选择。我们使用一个限制在该层参数上的块对角经验 Fisher 得分来衡量层 ℓ 对任务的重要性，

F_ℓ = (1/N) ∑_{n=1}^N ∑_{θ ∈ θ_ℓ^{base}} ‖ ∇_θ L(x_n, y_n) ‖²,   (2)

其中 θ_ℓ^{base} 是层 ℓ 的基础模型参数（而非适配器），L 是任务损失，N 是用于估计的微批次数。公式 (2) 对应每层的经验 Fisher 对角迹，它作为一个正半定曲率代理，对每层重参数化不变 (Amari, 1998 (https://arxiv.org/html/2605.29317#bib.bib20))。我们在训练前使用基础模型在 N 个微批次上进行一次前向-反向传播来计算 F_ℓ，并选择

S = TopK({F_ℓ}_{ℓ=1}^L, K),                (3)

即得分最高的 K 层的索引集合。适配器仅插入在 S 中的层，且 S 在整个训练运行中保持固定。成本主要由基础模型上的 N 次前向-反向传播决定，低于完整训练预算的百分之一。我们使用经验 Fisher（观测标签上的梯度）而非真实 Fisher；这种偏差对所有层的影响相当，不会改变用于选择的相对排名 (Kunstner et al., 2019 (https://arxiv.org/html/2605.29317#bib.bib22))。

Stiefel 约束的适配器训练。对于每个被选中的层 ℓ ∈ S，我们将下投影 B_ℓ 约束在列正交矩阵的 Stiefel 流形上，建立在先前将此约束引入 LoRA 的工作基础上 (Park et al., 2025 (https://arxiv.org/html/2605.29317#bib.bib40))。

St(d_out, r) = { B ∈ ℝ^{d_out × r} : B^T B = I_r }.   (4)

这促使每个秩为 r 的适配器在输出空间中跨越 r 个正交方向。其结构后果比单纯保持秩更强，如下面的引理所明确阐述。

###### 引理 1

如果 B ∈ St(d_out, r)，则对于每个 A ∈ ℝ^{r × d_in}，BA 的奇异值与 A 的奇异值一致：

σ_i(BA) = σ_i(A) 对所有 i = 1, ..., r 成立。

表 1: 五个 LLaMA 系列骨干网络（跨越两代模型）在七任务常识推理基准上的准确率。Params (M) 是可训练参数数量（百万）。FoRA 使用的可训练参数约为 LoRA 系列方法的一半，同时达到或超越其准确率。

简短证明见附录 C (https://arxiv.org/html/2605.29317#A3)。引理意味着 rank(ΔW) = rank(A)，更重要的是，基于熵的有效秩 erank(BA) = erank(A)。Stiefel 约束消除了下投影侧的结构性崩溃，将 ΔW 的有效秩保持简化为对 A 的优化。关键的是，保持严格的列正交性 (B^T B = I_r) 起到了隐式正则化的作用；由此产生的几何屏蔽防止了反向传播到 A 的梯度中出现幅度失真或方向偏差。这稳定了 A 的欧几里得优化，并防止了快速的奇异值衰减，有效地缓解了无约束 LoRA 中广泛报告的谱崩溃 (Biderman et al., 2024 (https://arxiv.org/html/2605.29317#bib.bib12); Hayou et al., 2024 (https://arxiv.org/html/2605.29317#bib.bib13))，这在其光谱分析中得到验证 (Hayou et al., 2024 (https://arxiv.org/html/2605.29317#bib.bib13))。该机制通过我们在第 5.3 节 (https://arxiv.org/html/2605.29317#S5.SS3) 中的谱分析得到经验验证。我们在整个训练过程中使用 Cayley 参数化 (Wen and Yin, 2013 (https://arxiv.org/html/2605.29317#bib.bib21)) 保持该约束。令 G_ℓ = ∂L/∂B_ℓ 为欧几里得梯度。我们构造斜对称方向

W = Ŵ - Ŵ^T,                                    (5)
Ŵ = G_ℓ B_ℓ^T - ½ B_ℓ B_ℓ^T G_ℓ B_ℓ^T,

这是 L 在 St(d_out, r) 上 B_ℓ 处的黎曼梯度 (Wen and Yin, 2013 (https://arxiv.org/html/2605.29317#bib.bib21))。给定 W 和步长 α，Cayley 更新为

Q = (I - ½α W)^{-1} (I + ½α W),

FoRA: Fisher正交秩适应实现参数高效微调

相似文章

FuRA：基于频谱预条件的全秩参数高效微调

Hybrid-LoRA：桥接全微调与低秩适应的后训练方法

基于可学习秩的参数高效微调

BaLoRA：大规模模型的贝叶斯低秩适应

基于广义瑞利商优化的基础保留适应

提交意见反馈