超越 LoRA 与全参数微调:基于梯度引导优化器路由的大语言模型适配
摘要
本文提出了一种混合 LoRA 与全参数微调(MoLF)框架,利用梯度引导的优化器路由在 LoRA 和全参数微调之间进行自适应切换。旨在通过结合全参数微调的可塑性与 LoRA 的正则化特性,克服仅依赖静态适配方法的结构局限性。
arXiv:2605.07111v1 公告类型:新文章
摘要:近期关于大语言模型微调的文献突显了一个根本性的争论。虽然全参数微调(Full Fine-Tuning, FFT)提供了注入高熵知识所需的表征可塑性,但低秩自适应(LoRA)在许多任务中也能匹配甚至超越 FFT 的性能,这是因为这些任务仅需在低秩空间中进行更新,并且受益于 LoRA 提供的额外正则化。通过对不同任务(SQL、医疗问答和反事实知识)及不同语言模型(Gemma-3-1B、Qwen2.5-1.5B 和 Qwen2.5-3B)的经验评估,我们验证了这两种趋势,并证明仅依赖任何一种静态架构都存在结构上的局限性。为了解决这一挑战,我们提出了混合 LoRA 与全参数微调(MoLF)框架,这是一个统一的框架,能够在这两种训练模式之间进行连续导航。MoLF 在优化器层面动态地在 FFT 和 LoRA 之间路由更新,以确保在训练过程中两个专家都能获得精确的梯度信号,从而实现稳定的训练动态。针对内存受限的环境,我们还引入了 MoLF-Efficient,该方法冻结基础权重,仅在不同秩的一对 LoRA 专家之间路由更新。我们的评估显示,在所有设置下,MoLF 要么优于 FFT 和 LoRA 中较好的一方,要么与其差距不超过 $1.5\%$,而 MoLF-Efficient 在 Fact 任务上比先前的自适应 LoRA 方法高出多达 $20\%$,在 Med 和 SQL 任务上高出 $9\%$。
查看缓存全文
缓存时间: 2026/05/11 06:48
# 超越 LoRA 与全参数微调:用于大语言模型适应的梯度引导优化器路由
来源:https://arxiv.org/html/2605.07111
Haozhan Tang${}^{1,2,\dagger}$, Xiuqi Zhu${}^{1,*}$, Xinyin Zhang${}^{1,*}$, Boxun Li${}^{3}$, Virginia Smith${}^{1}$, Kevin Kuo${}^{1,\dagger}$
${}^{1}$卡内基梅隆大学 ${}^{2}$清华大学 ${}^{3}$Infinigence AI
###### 摘要
最近关于大语言模型(LLM)微调的文献突显了一个根本性的争论。虽然全参数微调(FFT)提供了高熵知识注入所需的表征可塑性,但低秩适应(LoRA)由于许多任务仅需在低秩空间进行更新,且受益于 LoRA 提供的额外正则化,其性能往往能匹敌甚至超越 FFT。通过在多种任务(SQL、医疗问答和反事实知识)以及不同语言模型(Gemma-3-1B、Qwen2.5-1.5B 和 Qwen2.5-3B)上的实证评估,我们验证了这两种趋势,并证明仅依赖其中一种静态架构在结构上是有限的。为了应对这一挑战,我们提出了混合 LoRA 与全参数微调(MoLF),这是一个统一的框架,能够在两种训练机制之间实现连续导航。MoLF 在优化器层面动态地将更新路由至 FFT 和 LoRA,以确保在整个训练过程中,两个专家都能获得精确的梯度信号,从而产生稳定的训练动态。对于内存受限的环境,我们还引入了 MoLF-Efficient,它冻结基础权重,仅在一对可能具有不同秩的 LoRA 专家之间路由更新。我们的评估表明,在所有设置下,MoLF 要么优于 FFT 和 LoRA 中表现较好者,要么在其 1.5% 的误差范围内;而 MoLF-Efficient 在 Fact 数据集上的表现比先前的自适应 LoRA 方法高出多达 20%,在 Med 和 SQL 数据集上高出 9%。
$\dagger$对应作者:[email protected], [email protected].
## 1 引言
微调预训练大语言模型(LLMs)是一种标准范式,能在下游自然语言处理任务中产生强大的性能 [Brownet al., 2020, Touvronet al., 2023a, b, Chunget al., 2024]。然而,有效的微调具有挑战性,因为 LLM 的参数容量远超微调数据集中有限的样本数量。这在表征可塑性与泛化能力之间造成了张力,激进的优化可能导致过拟合或退化预训练表征 [Jianget al., 2020, Aghajanyanet al., 2020]。控制此类结构的一个自然维度是微调更新本身的参数化方式 [Dinget al., 2022, Xuet al., 2026]。

**图 1:** 我们的实证评估揭示了微调中的结构性权衡:FFT 在高熵事实领域表现优异,而 LoRA 提供了在适应过程中保留预训练推理能力所需的正则化。混合 LoRA 与全参数微调(MoLF)框架在优化器层面动态地将更新路由至全参数和低秩路径:将稀疏性转移到优化步骤确保每个专家在整个训练过程中都能接收全批量梯度信号。
在此领域中,一个基本但尚未解决的问题是:全参数微调(FFT)还是低秩适应(LoRA)[Huet al., 2022] 更有效。人们通常假设,由于其更高的容量,FFT 应比 LoRA 实现更高的准确性。因此,LoRA 的扩展通常旨在通过混合多个常见秩的 LoRA 模块 [Wanget al., 2022, Albertet al., 2025] 或在训练过程中适应模块的秩 [Zhanget al., 2023b, a, Liuet al., 2024] 来增加其有效秩。然而,实证证据表明,原始容量并非性能的唯一因素,低秩约束可以作为正则化手段,使 LoRA 优于 FFT [Huet al., 2022, Bidermanet al., 2024]。综上所述,这些研究表明,依赖单一的静态架构在结构上是有限的,这激励了利用两者优势的解决方案。
为此,我们提出了混合 LoRA 与全参数微调(MoLF),它同时训练一个 FFT 专家和一个 LoRA 专家。与先前的混合 PEFT 或自适应 LoRA 方法 [Wanget al., 2022, Zhanget al., 2023b] 不同,MoLF 保持专家参数完整,并在专家层面稀疏化参数更新;所有专家都参与每次前向和后向传播。因此,参数空间和优化器状态在整个训练过程中保持不变,避免了自适应秩方法在秩提升时产生的 AdamW 动量冷启动问题,并且每个专家都从全批量中累积梯度统计信息,随着每个专家重要性的变化,产生稳定的训练动态。
对于内存受限的设置,我们额外提出了 MoLF-Efficient(MoLF-E),它摒弃了 FFT 专家,仅在一对 LoRA 专家之间路由更新。MoLF-E 继承了 MoLF 的训练一致性优势,同时以全参数表达能力换取更小的内存占用。总之,我们的贡献如下:
1. 我们在 9 种设置中对 FFT 和 LoRA 进行了广泛调优,其中我们在 3 个数据集(CounterFact、MedMCQA 和 Text-to-SQL)上微调了 3 个 LLM(Gemma-3-1B、Qwen2.5-1.5B、Qwen2.5-3B)。我们的结果表明,方法和秩的最佳选择因设置而异,这表明方法不应简单地寻求最大化架构的有效秩。
2. 我们提出了 MoLF,它在混合专家框架内统一了 FFT 和 LoRA。MoLF 同时微调一个 FFT 专家和一个 LoRA 专家,并基于基于动量和容量感知的专家评分函数系统地约束更新。在 3 个基准数据集和 3 个 LLM 架构上,MoLF 的表现始终优于或保持在最佳基线(FFT 或 LoRA)的 1.5% 以内。
3. 我们提出了 MoLF-E,这是一种内存高效的变体,它冻结基础模型并在 LoRA 专家对之间路由更新。在可比参数预算下,MoLF-E 始终优于现有的自适应秩方法,在 Fact 数据集上相比表现最差的基线方法提高了超过 20%。
## 2 相关工作
**FFT 与 LoRA。** 先前的工作表明,预训练 LLM 的微调发生在低维子空间中,这解释了为什么 LoRA 非常有效 [Huet al., 2022, Aghajanyanet al., 2021, Schulman and Thinking Machines, 2025]。后续工作试图通过模仿 FFT 或增加 LoRA 的有效秩来进一步改进 LoRA [Albertet al., 2025, Haoet al., 2024, Wanget al., 2024, Lialinet al., 2024]。对这两种方法的实证比较得出了混合的结论:一些研究发现 LoRA 匹敌或超过 FFT,低秩约束作为一种隐式正则化手段,减轻了遗忘并减少了在 RLHF 期间对显式 KL 惩罚的依赖 [Huet al., 2022, Bidermanet al., 2024, Sunet al., 2023, Duet al., 2024]。相反,另一些研究发现 FFT 优于 LoRA,特别是在指令微调和知识密集型设置中 [Ivisonet al., 2023, Pletenevet al., 2025]。除了原始准确性外,FFT 和 LoRA 在学习解决方案的结构及其对分布偏移的鲁棒性方面也存在差异 [Bidermanet al., 2024, Shuttleworthet al., 2025]。
**自适应 LoRA。** LoRA 是一种参数高效微调(PEFT)方法,它将可训练的低秩矩阵注入冻结的基础模型中 [Huet al., 2022]。尽管高效,但 LoRA 对秩的选择敏感,这推动了一系列使用重要性分数(例如参数或梯度范数)动态地促进或修剪层级间秩组件的工作 [Zhanget al., 2023b, a, Liuet al., 2024, Changet al., 2025]。另一类类似的方法采用更细粒度的方法,将 LoRA 更新分解为秩-1 组件,并通过稀疏正则化、元学习或基于重要性的修剪对其进行选择性门控或路由 [Dinget al., 2023, Zhanget al., 2024, Maoet al., 2024]。最后,相关的工作旨在产生在推理时对秩截断具有鲁棒性的 LoRA 模块 [Valipouret al., 2023, Rajabzadehet al., 2024]。
**混合 PEFT。** 混合专家(MoE)模型维护多个并行子网络(专家),并将每个输入路由到其中一部分 [Jacobset al., 1991, Shazeeret al., 2017]。几项工作将 PEFT 与 MoE 风格的路由相结合,将每个 LoRA 适配器视为一个专家。这些工作由两个相关但不同的目标所驱动。首先,单个固定秩适配器的容量有限,而在适配器池上进行路由以较低的额外计算成本增加了这种容量 [Wanget al., 2022, Zhuet al., 2023, Liu and Luo, 2024]。其次,当尝试专门针对多个领域时,共享 LoRA 会遭受梯度冲突和负迁移。因此,路由允许各个专家针对每个领域或任务进行专门化 [Zadouriet al., 2024, Wuet al., 2024, Liet al., 2024, Douet al., 2024]。然而,所有这些方法都将低秩约束视为既定事实,并专注于如何在同样受限的专家之间最好地分配或路由。相比之下...相似文章
Aletheia:基于梯度引导的层选择方法,实现跨架构的高效LoRA微调
Aletheia 提出了一种基于梯度引导的层选择方法,用于高效的 LoRA 微调。该方法通过轻量级梯度探针识别与任务相关的 Transformer 层,并选择性地应用适配器,在 14 个模型上实现了 15%-28% 的训练加速,同时保持了在 MMLU、GSM8K 和 HumanEval 基准测试中的下游性能。
Queryable LoRA: 基于指令正则化的共享低秩更新原子路由
介绍了一种数据自适应的高效微调方法——Queryable LoRA,它利用共享的低秩更新原子记忆,结合基于注意力的路由和指令正则化,实现动态、上下文敏感的参数更新,同时保持可扩展性。
RDP LoRA:基于几何轨迹的大语言模型参数高效适配层选择方法
RDP-LoRA 通过几何轨迹分析与 Ramer-Douglas-Peucker 算法,自动挑出对参数高效微调最关键的层,效果优于全层及随机 LoRA 基线。
GRPO 下基于梯度的 LoRA 秩分配:一项实证研究
本研究通过实证表明,在监督微调中有效的基于梯度的 LoRA 秩分配,在基于 GRPO 的强化学习中会导致性能下降,原因在于梯度景观更为平缓以及存在梯度放大效应。
Echo-LoRA:通过跨层表示注入实现参数高效微调
本文介绍了 Echo-LoRA,这是一种新的参数高效微调方法,它将来自深层源层的跨层表示注入到浅层 LoRA 模块中,从而在不增加推理开销的情况下提升性能。