超越LoRA:稀疏诱导的适配是否更好?

arXiv cs.LG 论文

摘要

本文提出了对LoRA的稀疏诱导适配方法,包括廉价LoRA(cLA)和链式循环变体(c³LA),并提供了理论泛化界以及实证评估,结果显示在保持竞争性性能的同时,训练时间最多减少10%,峰值GPU内存节省最多15%。

arXiv:2606.13767v1 公告类型:新 摘要:低秩适配(LoRA)及其变体为预训练模型的全参数微调提供了一种内存和计算高效的替代方案。然而,关于这些方法的比较泛化能力以及低秩更新的结构限制如何保持有效的适配性能,仍存在疑问。我们提出了一个历史框架,涵盖了过去(全参数微调和原始LoRA)、现在(LoRA的不同变体),并提出了通过诱导现有LoRA变体中的稀疏性来实现更简单、更便宜、参数高效的扩展:廉价LoRA(cLA),训练单个低秩因子而固定另一个(确定性地,或其随机变体中的随机方式),以及链式循环变体${c}^3$LA。我们将cLA视为非对称LoRA的结构化实例,作为全参数微调的受控列子空间限制。我们为这些变体推导了信息论泛化误差界,这是该领域的首批尝试之一。在实证方面,我们评估了11种微调方法,涵盖10个预训练模型和14个数据集,利用损失景观和频谱分析等工具分析了微调模型的性能和泛化能力。尽管微调模型对预训练模型、数据集等因素敏感,但我们的研究表明,将基于LoRA的PEFT方法的适配限制在稀疏、结构化的列空间上,在其参数匹配基线上仍然具有竞争力,同时即使使用朴素、非优化的稀疏实现,也能减少最多10%的训练时间和最多15%的峰值GPU内存。我们的理论和实证泛化度量为其成本效益适配提供了一种比常用分析工具更一致、更原则性的方法。概述和代码可访问:https://elicaden.github.io/Beyond_LoRA/。
查看原文
查看缓存全文

缓存时间: 2026/06/15 09:07

# 超越LoRA:稀疏诱导的适配是否更优? 来源:https://arxiv.org/html/2606.13767 Elijah Cadenhead1,Cristian McGee1, 3,Xin Li1,El Houcine Bergou2,Aritra Dutta1,3  
1 美国中佛罗里达大学数据、数学与统计科学学院  
2 摩洛哥穆罕默德六世理工大学计算学院  
3 美国中佛罗里达大学计算机科学系  

###### 摘要  
低秩适配(LoRA)及其变体为预训练模型的全参数微调提供了一种内存和计算高效的替代方案。然而,关于这些方法的比较泛化能力以及低秩更新的结构限制如何在保持有效适配性能方面发挥作用,仍然存在疑问。我们提出了一种历史框架,涵盖了过去(全参数微调和原始LoRA)、现在(LoRA的不同变体),并通过在现有LoRA变体中引入稀疏性,提出了更简单、更便宜、参数高效的扩展:廉价LoRA(cLA),仅训练单个低秩因子而固定另一个(确定性固定,或其随机变体中的随机固定),以及链式循环变体c³LA。我们将cLA视为非对称LoRA的结构化实例,作为全参数微调的一种受控列子空间限制。我们为这些变体推导了基于信息论的泛化误差界,标志着该领域的一项早期尝试。在实验上,*我们评估了11种微调方法,跨越10个预训练模型和14个数据集,使用损失景观和谱分析等工具分析了微调模型的性能和泛化能力。* 尽管微调模型对预训练模型、数据集和其他因素敏感,我们的研究表明,将基于LoRA的PEFT方法的适配限制在稀疏、结构化的列空间上,在任务中仍能与参数匹配的基线保持竞争力,同时*减少高达10%的训练时间*和*峰值GPU内存高达15%*,即便是使用朴素、未经优化的稀疏实现。我们的理论和实证泛化度量相比常用的分析工具,为成本有效的适配提供了更一致和更原则性的方法。GitHub代码库:github.com/EliCaden/Beyond_LoRA (https://github.com/EliCaden/Beyond_LoRA)。  

关键词:参数高效微调·低秩适配·LoRA变体·稀疏LoRA·列子空间适配·泛化界·预训练模型  

###### 目录  
1. 1引言 (https://arxiv.org/html/2606.13767#S1)  
2. 2微调:过去、现在和未来 (https://arxiv.org/html/2606.13767#S2)  
   1. 2.1 过去:全参数微调(FFT)和LoRA (https://arxiv.org/html/2606.13767#S2.SS1)  
   2. 2.2 现在:LoRA的演变 (https://arxiv.org/html/2606.13767#S2.SS2)  
   3. 2.3 未来:如何实现更高效率? (https://arxiv.org/html/2606.13767#S2.SS3)  
3. 3理论见解 (https://arxiv.org/html/2606.13767#S3)  
   1. 3.1 关于不同LoRA变体的泛化 (https://arxiv.org/html/2606.13767#S3.SS1)  
4. 4定量评估 (https://arxiv.org/html/2606.13767#S4)  
   1. 4.1 微调模型的质量 (https://arxiv.org/html/2606.13767#S4.SS1)  
   2. 4.2 微调模型的泛化能力 (https://arxiv.org/html/2606.13767#S4.SS2)  
   3. 4.3 性能分析 (https://arxiv.org/html/2606.13767#S4.SS3)  
       1. 4.3.1 讨论 (https://arxiv.org/html/2606.13767#S4.SS3.SSS1)  
5. 5结论 (https://arxiv.org/html/2606.13767#S5)  
6. 参考文献 (https://arxiv.org/html/2606.13767#bib)  
7. A现在:LoRA的演变——续 (https://arxiv.org/html/2606.13767#A1)  
8. B PaCA与cLA的关系 (https://arxiv.org/html/2606.13767#A2)  
   1. B.1 引入PaCA的新伪影 (https://arxiv.org/html/2606.13767#A2.SS1)  
   2. B.2 将PaCA的收敛结果应用于cLA (https://arxiv.org/html/2606.13767#A2.SS2)  
9. C稀疏诱导LoRA变体的伪代码 (https://arxiv.org/html/2606.13767#A3)  
10. D理论结果 (https://arxiv.org/html/2606.13767#A4)  
    1. D.1 泛化 (https://arxiv.org/html/2606.13767#A4.SS1)  
        1. D.1.1 使用的不等式 (https://arxiv.org/html/2606.13767#A4.SS1.SSS1)  
        2. D.1.2 定理1的证明 (https://arxiv.org/html/2606.13767#A4.SS1.SSS2)  
        3. D.1.3 无激活函数的神经网络——定理1的特例 (https://arxiv.org/html/2606.13767#A4.SS1.SSS3)  
        4. D.1.4 定理1中界的紧致性 (https://arxiv.org/html/2606.13767#A4.SS1.SSS4)  
        5. D.1.5 将定理1应用于注意力机制 (https://arxiv.org/html/2606.13767#A4.SS1.SSS5)  
        6. D.1.6 在特殊情况下调整定理1 (https://arxiv.org/html/2606.13767#A4.SS1.SSS6)  
11. E基准测试和评估补充 (https://arxiv.org/html/2606.13767#A5)  
    1. E.1 实现细节 (https://arxiv.org/html/2606.13767#A5.SS1)  
    2. E.2 学习率、缩放因子和链重置频率对不同秩的质量指标的影响 (https://arxiv.org/html/2606.13767#A5.SS2)  
        1. E.2.1 DeepseekCoder性能分析 (https://arxiv.org/html/2606.13767#A5.SS2.SSS1)  
    3. E.3 计算成本、内存和效率 (https://arxiv.org/html/2606.13767#A5.SS3)  
        1. E.3.1 朴素稀疏实现 (https://arxiv.org/html/2606.13767#A5.SS3.SSS1)  
        2. E.3.2 实验 (https://arxiv.org/html/2606.13767#A5.SS3.SSS2)  
    4. E.4 性能分析——续 (https://arxiv.org/html/2606.13767#A5.SS4)  
        1. E.4.1 损失景观——续 (https://arxiv.org/html/2606.13767#A5.SS4.SSS1)  
        2. E.4.2 入侵维度实现 (https://arxiv.org/html/2606.13767#A5.SS4.SSS2)  
    5. E.5 泛化误差——续 (https://arxiv.org/html/2606.13767#A5.SS5)  
        1. E.5.1 标准化泛化结果 (https://arxiv.org/html/2606.13767#A5.SS5.SSS1)  
12. F局限性与讨论 (https://arxiv.org/html/2606.13767#A6)  
13. G符号表 (https://arxiv.org/html/2606.13767#A7)  

## 1 引言  

全参数微调(FFT)[6 (https://arxiv.org/html/2606.13767#bib.bib47)] 修改预训练神经网络在新数据集上的参数,使网络适应新的下游任务。随着模型规模和数据集增长,FFT通常在计算上不可行或成本过高。此外,这些复杂模型的增长与硬件计算能力并不协调[10 (https://arxiv.org/html/2606.13767#bib.bib5),67 (https://arxiv.org/html/2606.13767#bib.bib11)]。例如,Llama-3[1 (https://arxiv.org/html/2606.13767#bib.bib6),14 (https://arxiv.org/html/2606.13767#bib.bib7)] 的最小变体有8B个参数;它需要32 GB的GPU内存进行推理,以及64 GB用于现代协议的训练。相比之下,NVIDIA H100的半精度性能仅为NVIDIA A100的约2.4倍,而它们的内存容量保持不变[48 (https://arxiv.org/html/2606.13767#bib.bib74)]。  

参见图注  

图1:ViT-Base在ImageNet-21K上预训练并在ImageNet-1K上微调后的3D损失景观。我们使用不同策略(包括FFT)在CIFAR-10上微调该模型。与其他PEFT方法相比,FFT具有最窄的局部最小值,并产生最差的测试准确率。然而,它的泛化误差G(W)是所有方法中最小的;参见定义1 (https://arxiv.org/html/2606.13767#Thmdefinition1)和表16 (https://arxiv.org/html/2606.13767#A5.T16)。在(d)中,当我们叠加损失景观时,FFT显示出最尖锐的景观;RAC具有最平滑的景观和最高的G(W)。根据[34 (https://arxiv.org/html/2606.13767#bib.bib17)],这是反直觉的;具有尖锐景观和小体积局部最小值的模型泛化能力不佳。  

或者,参数高效微调(PEFT)节省空间和时间,避免过拟合,并被广泛使用。低秩适配(LoRA)[27 (https://arxiv.org/html/2606.13767#bib.bib2)] 是一种通过减少可训练参数来实现与FFT相当性能的PEFT方法。为了缓解LoRA的缺陷,研究人员提出了众多变体,包括链式LoRA(CoLA)[65 (https://arxiv.org/html/2606.13767#bib.bib12)]、非对称LoRA[75 (https://arxiv.org/html/2606.13767#bib.bib18)]、随机非对称链式LoRA[42 (https://arxiv.org/html/2606.13767#bib.bib19)]、LoRA+[18 (https://arxiv.org/html/2606.13767#bib.bib20)]、自适应LoRA[72 (https://arxiv.org/html/2606.13767#bib.bib38)]等;参见[69 (https://arxiv.org/html/2606.13767#bib.bib4),17 (https://arxiv.org/html/2606.13767#bib.bib97)]。尽管存在现有的LoRA变体,但关于低秩更新的结构化限制如何在相似参数数量下保持有效适配仍不清楚。最近的工作[69 (https://arxiv.org/html/2606.13767#bib.bib4),55 (https://arxiv.org/html/2606.13767#bib.bib22),42 (https://arxiv.org/html/2606.13767#bib.bib19)] 分析和比较了这些PEFT方法与全参数微调,但这些基准测试并不结论明确。图1 (https://arxiv.org/html/2606.13767#S1.F1) 展示了这样一个例子,其中泛化和损失景观的尖锐度与我们之前的理解相矛盾——FFT生成的模型尽管具有最尖锐的景观和最窄的谷底,但具有最小的泛化误差,这与众所周知的启发式方法(具有更尖锐最小值的模型应该泛化更差)相冲突[34 (https://arxiv.org/html/2606.13767#bib.bib17),28 (https://arxiv.org/html/2606.13767#bib.bib3)]。当前文献在参数匹配比较中对这些方法的行为理解有限,即哪些极端稀疏性和结构化低秩约束能够在任务和模型间保持有效适配并提供更好的泛化,以及这些限制可以推多远直到适配性能退化。在资源受限的物联网和边缘部署的时代[26 (https://arxiv.org/html/2606.13767#bib.bib30),11 (https://arxiv.org/html/2606.13767#bib.bib31)],推动稀疏或结构化库的参数效率[53 (https://arxiv.org/html/2606.13767#bib.bib32),12 (https://arxiv.org/html/2606.13767#bib.bib35)] 已成为实际需求。例如,新的OpenAI LLM GPT-4.5所需的计算量比GPT-4增加了10倍,却仅获得了边际的性能提升,这可能表明有效的参数减少对这些模型有益[44 (https://arxiv.org/html/2606.13767#bib.bib78)]。此外,为了减少激活内存并改进适配器和预训练LoRA层的顺序处理,[64 (https://arxiv.org/html/2606.13767#bib.bib84)] 引入了部分连接适配(PaCA)。这些想法激励我们探索LoRA的不同结构化实例,这些实例明确将学习限制在一个既定的列子空间内,从而更清晰地检验受限子空间更新在保持竞争力性能的同时能被推到什么程度。为此,*我们提出了4种更简单、更便宜且参数高效的现有SOTA LoRA变体扩展*:廉价LoRA(cLA),只训练一个低秩因子并确定性设置另一个低秩因子;其随机变体random-cLA;其链式循环变体c³LA;以及其随机链式变体random-c³LA。cLA和r-cLA可以解释为非对称LoRA的结构化实例,将学习限制在r列子空间内,从而鲜明对比部分列空间适配与替代低秩更新的差异。或者,它们可以被视为PaCA的LoRA适配,其中受限的微调列被设置为预训练模型的r列;参见图2 (https://arxiv.org/html/2606.13767#S3.F2)。因此,*我们提出的稀疏诱导SOTA LoRA变体充当了LoRA和PaCA两个适配器家族之间的桥梁*;参见§2.3 (https://arxiv.org/html/2606.13767#S2.SS3)和§B (https://arxiv.org/html/2606.13767#A2)。但是,哪种低秩更新的结构化限制仍然足以实现有竞争力的适配?将学习限制在列空间的一个小而结构化的部分是否能提供与微调所有列相当的性能?或者,在这些稀疏化的LoRA变体之间是否存在显著的性能差异?如果是这样,这些差异如何随PEFT方法、超参数配置和模型而变化?为了回答这些问题,我们做出了以下贡献:  

通过泛化获得理论见解(§3 (https://arxiv.org/html/2606.13767#S3))。*泛化能力*衡量模型在其训练数据集上的损失在多大程度上代表其在整个特征空间上的损失,反映了模型避免过拟合的能力。由于我们的问题关注参数减少的微调子空间何时仍具有竞争力,我们使用泛化界将结构限制(如适配器秩、链长(如果有)、逐层输入输出维度、训练位宽、微调数据集大小等)与过拟合风险联系起来。为此,我们采用*信息论方法*来衡量本文讨论的PEFT方法(包括PaCA)的泛化误差界。结果总结在表1 (https://arxiv.org/html/2606.13767#S3.T1)中。  

定量评估(§4 (https://arxiv.org/html/2606.13767#S4))。我们评估了FFT、9种基于LoRA的PEFT和PaCA,涵盖10个不同的预训练模型,涉及4个微调任务:自然语言处理、图像识别、代码生成和逻辑推理。我们报告了丰富的度量指标,包括准确率、谱行为、3D损失景观、吞吐量、运行时间和经验泛化误差。虽然不可能详尽无遗,但我们的综合基准测试提供了广泛适用的见解。  

## 2 微调:过去、现在和未来  

FFT更新深度网络的所有参数,随着模型规模和部署多样性的增长,这种方法变得越来越不切实际。这导致了LoRA及其变体的出现。根据它们的演化时间线,我们将本节分为三个阶段。*过去*包括FFT,并介绍LoRA,而不同的LoRA变体主导着*现在*。最后,极端计算效率特征化了*未来*,我们在其中向SOTA LoRA变体引入稀疏性。  

### 2.1 过去:全参数微调(FFT)和LoRA  

预训练。不失一般性,考虑一个具有L层全连接神经网络,其层为\{W^i\}_{i=1}^{L},其中W^i ∈ R^{n_i × m_i}是可训练权重。设x ∈ R^{m_1}是输入,W = (W^1, ..., W^L)。网络f_W(·) : R^{d_in} → R^{d_out}的形式为:  
f_W(x) = σ_L(W^L ... (σ_2(W^2 σ_1(W^1(x))) ... )), (1)  
其中σ^i(·) : R^{n_i} → R^{n_i}是第i层的非线性激活函数。给定预训练集N_pre := {(x_i, y_i)} ⊂ R^{m_1} × R^{d_out},以及损失函数ℓ_pre(·) : R^{d_out} × R^{d_out} → R,我们通过求解以下问题来训练网络:  
W_0 ≈ argmin_W 1/|N_pre| ∑_{i=1}^{|N_pre|} ℓ_pre(f_W(x_i), y_i), \displaystyle{\t

相似文章

Hybrid-LoRA:桥接全微调与低秩适应的后训练方法

arXiv cs.LG

Hybrid-LoRA提出了一种框架,选择性地对一小部分模块进行全微调,同时对其他模块使用LoRA,在显著降低计算成本的同时实现了接近全微调的性能。实验表明,与现有参数高效基线方法相比,性能提升高达5.65%。

AdaPreLoRA:Adafactor 预条件低秩适应

Hugging Face Daily Papers

AdaPreLoRA 是一种新颖的 LoRA 优化器,它利用 Adafactor 对角 Kronecker 预条件来改进因子空间更新,同时保持低内存占用,在各种大语言模型(LLM)和任务中表现出具有竞争力的性能。

JumpLoRA:大语言模型持续学习的稀疏适配器

arXiv cs.CL

JumpLoRA 引入了一个新颖的稀疏适配器框架,用于大语言模型的持续学习。该方法使用 JumpReLU 门控来动态隔离任务参数并防止灾难性遗忘。它增强了基于 LoRA 的方法,并超越了 ELLA 等最先进的持续学习方法。