ReLoRA: 知识复用适应方法,用于快速部署不断演进的LLM服务

arXiv cs.LG 论文

摘要

ReLoRA是一个知识复用的适应框架,能够高效恢复面向不断演进的LLM服务的、可投入使用的LoRA适配器。通过自适应初始化和计划正则化,它可将准备时间缩短最多8.9倍,并将准确率提升最高4.6%。

arXiv:2606.02606v1 公告类型:新 摘要:大型语言模型(LLMs)正越来越多地被部署为不断演进的服务,频繁的基模型更新可能会使先前部署的特定任务低秩适应(LoRA)适配器失效。对于管理众多下游模型服务的服务提供商而言,为每一个更新后的基模型从头重新训练每个LoRA适配器在计算上是不可行的,并且会延迟服务部署。与此同时,更简单的替代方案,即简单地将原始LoRA适配器应用于更新后的基模型,往往会导致服务质量的下降,因为适配器与骨干网络不兼容。为了解决这一问题,我们提出了ReLoRA,一个知识复用的再适应框架,能够高效地为不断演进的LLM服务恢复可用的LoRA适配器,同时保持或提升任务性能。具体而言,ReLoRA包含两个关键优化步骤:1)自适应LoRA初始化利用贝叶斯优化,通过融合先前部署的任务适配器信息和基模型的演进信息,构建一个兼容感知的起始点;2)带有计划正则化的微调首先通过强正则化快速将适配器引导至高质量区域,然后放松正则化以进行任务特定的微调。这种设计使得在减少再适应开销的同时快速恢复服务质量。大量实验表明,与基线相比,ReLoRA将准备时间缩短最多8.9$\times$,并将准确率提升最高4.6\%。
查看原文
查看缓存全文

缓存时间: 2026/06/03 09:39

# ReLoRA:面向快速部署演进化大语言模型服务的知识复用适配方法  
来源: https://arxiv.org/html/2606.02606  
杨旭, 徐子淮, *洪利旭*, 廖云明, 姚志伟, 付希同  

本文受国家自然科学基金(NSFC)项目 XXXXXXXX、XXXXXXX 和 XXXXXXX 资助。杨旭、徐子淮、洪利旭、廖云明、姚志伟、付希同分别隶属于中国科学技术大学计算机科学与技术学院(安徽合肥 230027)以及中国科学技术大学苏州高等研究院(江苏苏州 215123)。电子邮箱:[email protected][email protected][email protected][email protected][email protected][email protected]。洪利旭为通讯作者。  

###### 摘要  
大语言模型(LLM)越来越多地被部署为持续演进的服务,其中频繁的基础模型更新可能导致先前部署的任务特定低秩适配(LoRA)适配器失效。对于管理众多下游模型服务的服务提供商而言,每次更新基础模型时都从头重新训练每个 LoRA 适配器,计算成本高昂且会延迟服务上线。与此同时,一种更简单的替代方案——即直接将原始 LoRA 适配器应用于更新后的基础模型——往往由于适配器与骨干网络不兼容而导致服务质量下降。为了解决这一问题,我们提出了 ReLoRA——一种知识复用的重新适配框架,能够高效地恢复面向演进化 LLM 服务的就绪型 LoRA 适配器,同时保持或提升任务性能。具体而言,ReLoRA 包含两个关键优化步骤:1)自适应 LoRA 初始化——利用贝叶斯优化,融合先前部署的任务适配器信息和基础模型的演化信息,构建一个兼容性感知的起点;2)带计划正则化的微调——首先通过强正则化将适配器快速引导至高质量区域,随后放松正则化进行任务特定的精细调优。这一设计使得在降低重新适配开销的同时,能够快速恢复服务质量。大量实验表明,与基线方法相比,ReLoRA 最多可将就绪时间缩短 8.9 倍,并将准确率提升高达 4.6%。  

###### 索引词:*LLM服务、服务部署、模型服务维护、适配器向后兼容性、参数高效微调、低秩适配*。

## 1 引言  
大语言模型(LLM),例如 ChatGPT[1 (https://arxiv.org/html/2606.02606#bib.bib1)] 和 LLaMA[2 (https://arxiv.org/html/2606.02606#bib.bib2)],已成为现代 AI 服务的基础组件[3 (https://arxiv.org/html/2606.02606#bib.bib3)]。通过在多样化大规模语料上进行广泛的预训练,这些模型在广泛的任务中展现出显著的泛化能力。LLM 越来越多地被部署为持续演进的服务,而非静态模型:基础模型会定期更新,以融入新知识、改进对齐并增强通用能力。在这种面向服务的生态系统中,提供方一侧的基础模型更新不仅仅是模型的替换,还会引发构建于先前模型版本之上的众多下游模型服务的全生命周期维护问题。

为了支持专门的下游应用,LLM 服务通常通过微调进行定制。然而,传统的全参数微调需要大量的计算和内存开销。例如,对拥有 130 亿参数的 LLaMA 模型进行微调大约需要 100GB 内存。为了降低这一成本,研究人员开发了参数高效微调(PEFT)方法,其中低秩适配(LoRA)[4 (https://arxiv.org/html/2606.02606#bib.bib4)] 已成为主流方案。LoRA 冻结预训练的基础模型权重,并通过低秩矩阵分解来表示任务特定的更新,从而显著降低资源需求,同时保持竞争力。因此,许多下游 LLM 服务被部署为共享基础模型与任务特定的 LoRA 适配器相结合的形式。

然而,LLM 骨干网络的持续演进(例如 Gemini[5 (https://arxiv.org/html/2606.02606#bib.bib5)] 和 LLaMA[2 (https://arxiv.org/html/2606.02606#bib.bib2)])给这种基于 LoRA 的服务部署带来了严峻挑战。当基础模型从旧版本演进到新版本时,先前部署的 LoRA 适配器可能会变得过时或次优,因为它们是为旧骨干网络优化而得的。因此,那些已经投入精力微调了任务特定适配器的服务提供商,可能必须更新这些适配器,然后才能在演进后的基础模型上安全部署相应服务。对于在生产环境中管理数千个基于 LoRA 的任务服务的提供商[6 (https://arxiv.org/html/2606.02606#bib.bib6),7 (https://arxiv.org/html/2606.02606#bib.bib7)] 而言,即使是适中的每个适配器重新训练成本,在每次基础模型更新周期中累积起来也会形成可观的 GPU 小时数。例如,如果在一个中等规模数据集上微调单个 LoRA 实例大约需要 4 小时(NVIDIA A100 GPU[8 (https://arxiv.org/html/2606.02606#bib.bib8)] 上),那么更新 2000 个 LoRA 实例将需要大约 8000 GPU 小时,从而带来显著的操作负担[9 (https://arxiv.org/html/2606.02606#bib.bib9),10 (https://arxiv.org/html/2606.02606#bib.bib10)]。这一成本直接延迟了更新后 LLM 服务的上线,并增加了维护开销。

为了缓解这一问题,现有方法主要遵循两条不同的路径。最直接的实现称为 PortLLM[11 (https://arxiv.org/html/2606.02606#bib.bib11)],它直接将原始 LoRA 权重应用于新的演进后基础模型。从服务管理的角度来看,这种方法很有吸引力,因为几乎不需要额外的计算量,并且可以立即重用现有的任务特定知识。然而,正如我们在第 2.4 节 (https://arxiv.org/html/2606.02606#S2.SS4) 中所展示的,这种朴素的适配器迁移未能考虑基础模型演进引入的参数偏移。这导致原始任务适配与演进后骨干网络之间的不匹配,从而引起服务质量下降。

另一条研究路线探索了生成式方法来合成面向演进 LLM 的 LoRA 权重。例如,ORAL[12 (https://arxiv.org/html/2606.02606#bib.bib12)] 使用条件循环扩散模型,基于任务规范与模型架构从头生成 LoRA 权重。尽管此类生成式方法在创建新任务适配器方面提供了灵活性,但其通常需要大量的前期投入来训练生成模型本身,并且其有效性高度依赖于所学习生成器与条件信息的质量。鉴于直接适配器迁移可能导致不可接受的服务质量下降,某种形式的重新适配是必要的。与此同时,为了实现快速服务上线,重新适配应避免从头重新训练每个适配器。我们的关键洞察是:两种形式的现有知识可以联合重用,以加速这一过程:先前部署的 LoRA 适配器中编码的任务特定知识,以及基础模型新旧版本之间参数偏移所体现的演化知识。通过恰当地融合这两种知识源,更新后的适配器可以从一个更兼容的参数区域出发,从而缩短恢复就绪性能所需的时间。

基于这一洞察,我们提出了 ReLoRA——一种面向快速部署演进化 LLM 服务的知识复用重新适配框架。ReLoRA 通过两个关键步骤来编排适配器更新过程,即自适应 LoRA 初始化 与 带计划正则化的微调。首先,自适应 LoRA 初始化通过融合原始任务适配器的信息与基础模型演化的增量(即演进后模型与原始模型之间的差异),构建一个兼容性感知的起点。这一融合是通过贝叶斯优化搜索最优加权组合来实现的,从而为后续的重新适配提供一个更优的初始化。其次,带计划正则化的微调高效地将适配器引导至新的任务特定最优解,同时减少重新适配的开销。该步骤以一个 引导式快速适应 阶段开始:在此阶段,强 L2 正则化将适配器锚定到初始化状态,并使其快速进入高质量的就绪服务区域。随后进入 精细调优与探索 阶段:在此阶段,正则化被放松,以允许由任务损失驱动的精细调优,从而改善最终性能。总体而言,这种两步设计能够在保持下游任务性能的同时实现快速的服务质量恢复。

我们的主要贡献可总结如下。  
- 我们将面向演进 LLM 的适配器重新适配形式化为一个适配器向后兼容性与服务部署问题,其目标是在基础模型演化后快速恢复就绪状态的任务适配器。  
- 我们提出了 ReLoRA——一个知识复用框架,通过同时利用先前部署的任务适配器和基础模型的演化来降低基于 LoRA 的 LLM 服务的维护开销。  
- 我们引入了一种自适应 LoRA 初始化策略,该策略利用贝叶斯优化融合现有 LoRA 适配器的知识与基础模型演化增量,从而为快速重新适配构建兼容性感知的起点。  
- 我们设计了一种带计划正则化的微调策略,该策略首先将优化过程锚定到融合后的初始化状态,以实现快速的服务质量恢复,然后放松约束以进行精细调优。  
- 我们在六个下游服务任务、三个模型家族和三个更新源上进行了大量实验。结果表明,与基线方法相比,ReLoRA 最多可将就绪时间缩短 8.9 倍,并将任务准确率提升高达 4.6 个百分点。

本文的其余部分组织如下。第 2 节 (https://arxiv.org/html/2606.02606#S2) 介绍 LoRA 的背景以及本文工作的动机。第 3 节 (https://arxiv.org/html/2606.02606#S3) 详细阐述所提出的 ReLoRA 框架。第 4 节 (https://arxiv.org/html/2606.02606#S4) 展示实验结果与分析。第 5 节 (https://arxiv.org/html/2606.02606#S5) 评述相关工作。第 6 节 (https://arxiv.org/html/2606.02606#S6) 讨论本文工作的局限性,第 7 节 (https://arxiv.org/html/2606.02606#S7) 对全文进行总结。

参见图注  
图 1:ReLoRA 面向快速部署演进化 LLM 服务的工作流程。

## 2 背景与动机  

### 2.1 低秩适配(LoRA)  
参数高效微调(PEFT)方法显著减少了将 LLM 适配到下游任务所需训练的参数数量。其中,低秩适配(LoRA)已成为定制 LLM 服务的一种广泛采用的技术,因为它冻结预训练骨干网络,只更新一小部分额外的适配器参数。这种设计允许下游模型服务共享同一个基础模型,同时保持各自独立的轻量级任务特定适配器。具体来说,对于 LLM 第 \( h \) 层的权重矩阵 \( \Theta_0^h \in \mathbb{R}^{d \times k} \),LoRA 将第 \( i \) 个下游任务的增量更新表示为低秩分解:  
\[
\Delta\Theta_i^h = B_i^h A_i^h,
\]
其中 \( B_i^h \in \mathbb{R}^{d \times r} \),\( A_i^h \in \mathbb{R}^{r \times k} \),且秩满足 \( r \ll \min\{d, k\} \)。给定输入表示 \( x \),该层的输出计算为  
\[
\Theta_0^h x + B_i^h A_i^h x.
\]
在微调过程中,原始权重矩阵 \( \Theta_0^h \) 保持不变,只有 \( A_i^h \) 和 \( B_i^h \) 是可训练的。为简洁起见,我们用 \( \Delta\Theta_i \) 表示第 \( i \) 个下游服务任务在所有适配层上的 LoRA 更新集合。

### 2.2 LLM 服务演化与适配器向后兼容性  
接下来,我们将面向演进化 LLM 服务的适配器向后兼容性问题形式化。令 \( \Theta \) 表示旧服务骨干网络,\( \Theta' = \Theta + \Delta\Theta \) 表示基础模型演化后的更新骨干网络,其中 \( \Delta\Theta \) 表示更新引入的参数增量。对于第 \( i \) 个下游服务任务,令 \( \Delta\Theta_i \) 表示先前部署在 \( \Theta \) 上的 LoRA 适配器,并令 \( \Delta\Theta_i' \) 表示要为 \( \Theta' \) 构建的更新适配器。更新后任务服务的服务质量记为 \( Q_i(\Theta', \Delta\Theta_i') \)。目标是最小化 就绪时间 \( \tau_i \),即从基础模型更新完成到更新适配器达到所需服务质量阈值 \( q_i \) 之间的时钟时间:  
\[
\min_{\Delta\Theta_i'} \tau_i \quad \text{s.t.} \quad Q_i(\Theta', \Delta\Theta_i') \ge q_i.
\]
这一形式化不同于传统的微调:关键目标不仅仅是最大化最终任务准确率,而是在基础模型演化后快速恢复一个就绪状态的适配器,同时保持服务质量。

### 2.3 面向演进化 LLM 服务的 LoRA 适配挑战:朴素迁移的陷阱  
尽管 LoRA 显著降低了下游适配的成本,但在每次基础模型演化后更新大量基于 LoRA 的服务仍然代价高昂。这个问题在 LLM 服务生态系统中尤为突出,其中多个任务特定适配器通常部署在一个共享骨干网络之上。当骨干网络演化时,从头重新训练每个适配器可以可靠地恢复任务性能,但也会延迟下游服务的上线。一种更具吸引力的策略是直接在更新后的骨干网络上重用先前部署的适配器,从而避免重新训练。PortLLM[11 (https://arxiv.org/html/2606.02606#bib.bib11)] 就遵循了这一方向,它将旧骨干网络上学习到的任务特定适配器 \( \Delta\Theta_i \) 视为一个可迁移的“补丁”。如图 1 (https://arxiv.org/html/2606.02606#S1.F1) 所示,当基础模型从 \( \Theta \) 演化为 \( \Theta' \) 时,其中  
\[
\Theta' = \Theta + \Delta\Theta,
\]
PortLLM 直接将原始适配器 \( \Delta\Theta_i \) 应用于更新后的骨干网络。得到的适配模型可以写成  
\[
\Theta_i' = \Theta' + \Delta\Theta_i = \Theta + \Delta\Theta + \Delta\Theta_i.
\]
从服务管理的角度来看,这一策略实现了模型演化后几乎立即上线的路径,因为不需要适配器重新训练。然而,这种便利性伴随着一个重大风险:旧适配器是为先前的骨干网络优化而得的,可能与演化的骨干网络不再兼容。朴素迁移的局限性源于它忽略了基础模型演化 \( \Delta\Theta \) 与任务特定适配器之间的相互作用。

相似文章

Code2LoRA:超网络生成的适配器,用于软件演进中的代码语言模型

Hugging Face Daily Papers

Code2LoRA 引入了一个超网络,该超网络能够从代码仓库中一次性前向传播生成 LoRA 适配器,使得冻结的代码大语言模型无需额外 token 即可适应仓库上下文,并高效支持不断演进的代码库。此外,它还提供了 RepoPeftBench,一个用于仓库条件代码建模的基准测试。

Hybrid-LoRA:桥接全微调与低秩适应的后训练方法

arXiv cs.LG

Hybrid-LoRA提出了一种框架,选择性地对一小部分模块进行全微调,同时对其他模块使用LoRA,在显著降低计算成本的同时实现了接近全微调的性能。实验表明,与现有参数高效基线方法相比,性能提升高达5.65%。

JumpLoRA:大语言模型持续学习的稀疏适配器

arXiv cs.CL

JumpLoRA 引入了一个新颖的稀疏适配器框架,用于大语言模型的持续学习。该方法使用 JumpReLU 门控来动态隔离任务参数并防止灾难性遗忘。它增强了基于 LoRA 的方法,并超越了 ELLA 等最先进的持续学习方法。

AdaPreLoRA:Adafactor 预条件低秩适应

Hugging Face Daily Papers

AdaPreLoRA 是一种新颖的 LoRA 优化器,它利用 Adafactor 对角 Kronecker 预条件来改进因子空间更新,同时保持低内存占用,在各种大语言模型(LLM)和任务中表现出具有竞争力的性能。