CERSA:一种用于内存高效微调的累积能量保留子空间自适应方法

arXiv cs.LG 论文

摘要

本文介绍了 CERSA,这是一种新颖的参数高效微调方法,它利用奇异值分解来保留主成分,在显著降低内存使用的同时,其表现优于 LoRA 等现有方法。

arXiv:2605.08174v1 公告类型:新论文 摘要:为了解决与微调大型预训练模型相关的内存限制问题,现有的参数高效微调(PEFT)方法(如 LoRA)依赖于低秩更新。然而,此类更新无法完全捕捉到全参数微调中观察到的权重修改的秩特征,从而导致性能差距。此外,LoRA 和其他现有的 PEFT 方法仍然需要大量内存来存储完整的冻结权重,限制了它们在资源受限环境中的效率。为了解决这些局限性,我们引入了累积能量保留子空间自适应(CERSA),这是一种新颖的微调范式,利用奇异值分解(SVD)仅保留负责 90% 至 95% 谱能量的主成分。通过对由此主子空间导出的低秩表示进行微调,CERSA 显著降低了内存消耗。我们在不同规模和领域的模型(包括图像识别、文本到图像生成和自然语言理解)上对 CERSA 进行了广泛评估。实证结果表明,CERSA 始终优于最先进 PEFT 方法,同时实现了更低的内存需求。代码将公开 release。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/12 06:55

# 用于内存高效微调的累积能量保留子空间适应方法

来源:https://arxiv.org/html/2605.08174

Jingze Ge<sup>1</sup> Xue Geng<sup>3</sup> Yun Liu<sup>2</sup> Wanqi Dong<sup>1</sup> Wang Zhe Mark<sup>3</sup> Min Wu<sup>3</sup> Ngai-Man Cheung<sup>4</sup> Bharadwaj Veeravalli<sup>1</sup> Xulei Yang<sup>3</sup>

<sup>1</sup>新加坡国立大学 <sup>2</sup>南开大学 <sup>3</sup>A*STAR 资讯通信研究院 (I2R) <sup>4</sup>新加坡科技设计大学

[email protected] [email protected] [email protected] [email protected] [email protected] [email protected] [email protected] [email protected]

###### 摘要

为了缓解与微调大型预训练模型相关的内存限制,现有的参数高效微调(PEFT)方法(如 LoRA)依赖于低秩更新。然而,这种更新未能完全捕捉全参数微调中观察到的权重修改的秩特性,从而导致性能差距。此外,LoRA 和其他现有 PEFT 方法仍然需要大量内存来存储全套冻结权重,限制了它们在资源受限环境中的效率。为了克服这些局限性,我们引入了**累积能量保留子空间适应(Cumulative Energy-Retaining Subspace Adaptation, CERSA)**,这是一种新的微调范式,它利用奇异值分解(SVD)仅保留负责 90% 至 95% 谱能量的主要成分。通过对源自该主子空间的低秩表示进行微调,CERSA 显著降低了内存消耗。我们在不同规模和领域的模型上对 CERSA 进行了广泛评估,包括图像识别、文本到图像生成和自然语言理解。实证结果表明,CERSA 在始终优于最先进 PEFT 方法的同时,实现了更低的内存需求。代码将开源。

## 1 引言

针对特定任务微调预训练大模型已成为在自然语言处理和计算机视觉领域实现卓越性能的常见做法 (Hu et al., 2022; Sun et al., 2024; Meng et al., 2024)。预训练模型在广泛且多样化的数据集上训练 (Deng et al., 2009; Lin et al., 2014),积累了丰富且通用的知识,使其性能优于从头训练的模型。然而,微调整个预训练模型通常需要大量的计算资源,如内存,特别是对于基于 Transformer 架构的大型模型,如 ViT-Large (Dosovitskiy, 2021) 和 DeBERTaV3 (He et al., 2023)。与通常配备数千个 GPU 用于预训练的大规模训练集群不同,微调更可能发生在消费级 GPU 上,以支持多样化的下游应用。因此,减少可训练参数的数量和内存占用已成为参数高效微调(PEFT)研究的一个焦点 (Hu et al., 2022; Zie et al., 2023; Zhang et al., 2023a; Kopiczko et al., 2024; Gu et al., 2022; Ren et al., 2024; Valipour et al., 2023)。

现有的 PEFT 方法旨在仅微调预训练模型中的少量参数子集 (Rebuffi et al., 2017; Li and Liang, 2021; Lester et al., 2021),这显著降低了内存需求。由于反向传播期间更新的参数较少,存储梯度和优化器状态所需的内存需求也随之减少。其中最流行的方法是 LoRA (Hu et al., 2022) 及其变体 (Zie et al., 2023; Zhang et al., 2023a; Kopiczko et al., 2024; Ren et al., 2024; Sun et al., 2024; Meng et al., 2024),它们引入了两个低秩矩阵 $\bm{B} \in \mathbb{R}^{m \times r}$ 和 $\bm{A} \in \mathbb{R}^{r \times n}$ ($r \ll m, r \ll n$),将微调重新参数化为 $\bm{B} \times \bm{A}$。这里,预训练权重矩阵 $\bm{W} \in \mathbb{R}^{m \times n}$ 被冻结,仅训练新添加的低秩矩阵。

尽管取得了这些进展,大多数现有方法侧重于通过利用训练期间梯度的低秩性质来减少内存使用 (Hu et al., 2022; Zie et al., 2023; Kopiczko et al., 2024; Gu et al., 2022; Ren et al., 2024; Valipour et al., 2023)。然而,完整的权重矩阵必须存储在内存中,很少有方法直接压缩预训练权重。因此,权重、梯度和优化器状态的总内存消耗通常仍与预训练权重的大小挂钩。此外,SVFit (Sun et al., 2024) 和 SVFT (Lingam et al., 2024) 使用奇异值分解 (SVD) 压缩预训练权重,但需要存储两个大小为 $\mathbb{R}^{n \times n}$ 的全尺寸奇异向量矩阵,尽管其可训练参数数量少,但仍限制了内存节省(见第 2.2 节)。此外,最近的研究 (Shuttleworth et al., 2024) 揭示了 LoRA 的一个关键局限性:它引入了入侵维度,降低了模型在已学习任务上的性能。这些发现促使我们直接保留预训练权重的主要成分,从而在保持预训练期间编码的先验知识的同时实现内存高效的微调。

为此,我们提出了**累积能量保留子空间适应(CERSA)**,这是一种针对预训练权重的内存高效微调方法。其核心思想是对每个权重矩阵应用 SVD 并将其截断,仅保留保留大部分累积能量(通常为 90%–95%)的成分。由于权重矩阵的奇异值遵循重尾分布,少量占主导地位奇异向量足以使模型适应下游任务。如图 3 所示,根据矩阵位置,仅保留原始维度的 10%–50% 通常足以捕获主要能量。这使得在微调过程中能够大幅节省内存,同时性能损失极小。例如,在 ViT-Large (Dosovitskiy, 2021) 中,保留 95% 的累积能量产生的内存占用与 LoRA (rank=32) (Hu et al., 2022) 相当,如图 1 所示。将阈值降低到 90% 进一步将内存使用量降至低于原始预训练权重,同时在三个图像分类数据集上平均仅造成约 0.3% 的可忽略下降(表 4)。如图 2 所示,与基线方法相比,CERSA 实现了明显更优的准确率-内存权衡,使其在严格的内存约束下特别有效。

本文的主要贡献如下:

-   我们提出了 CERSA,这是一种内存高效的 PEFT 方法,使用 SVD 保留预训练模型权重的主要累积能量,并在主子空间内进行微调。这使内存使用量低于权重大小,与 LoRA (Hu et al., 2022) 相比提高了微调效率,并最大限度地减少了对先验知识的遗忘。
-   我们对 CERSA 提供了理论分析,表明在主要累积能量子空间内进行微调足以使模型适应下游任务。该子空间与大多数任务所需的子空间显著重叠,有助于在微调期间保留预训练知识。
-   我们在图像分类和自然语言理解任务上全面评估了 CERSA。结果表明,CERSA 始终优于最先进的 PEFT 基线,同时实现了最佳的准确率-内存权衡,突显了其在受限内存预算下的有效性。

> **图 1:** 微调 ViT-Large (Dosovitskiy, 2021) 的内存占用比较。

> **图 2:** ViT-Large (Dosovitskiy, 2021) 上平均准确率(见表 7)与总内存使用量的关系。

## 2 相关工作

### 2.1 低秩适应

LoRA (Hu et al., 2022) 是 PEFT 中的关键方法,通过将权重更新分解为低秩矩阵同时保持预训练权重冻结,从而减少内存使用。这使得大型模型的高效微调成为可能。对 LoRA (Hu et al., 2022) 的增强可以分为三类:权重驱动、数据驱动和自适应方法。

权重驱动方法在冻结的预训练权重之上添加源自权重分解的适配器,通过矩阵分解和正交约束直接操作权重空间。代表性方法包括 PiSSA (Meng et al., 2024)、OLoRA (Wang et al., 2023)、MiLoRA (Wang et al., 2024a)、LoRA-XS (Bałazy et al., 2024) 和 DoRA (Liu et al., 2024),它们引入了基于 SVD 的初始化、基于 QR 的正交初始化以及次要奇异成分适应等技术,以增强表示学习和收敛速度。

数据驱动方法利用模型激活、梯度或数据分布来指导适配器更新。如 LoRA-GA (Wang et al., 2024b)、LoRA-Pro (Wang et al., 2024c)、LaMDA (Azizi et al., 2024) 和 EVA (Paischer et al., 2024) 等技术采用将低秩梯度与全微调梯度对齐以及对小批量激活进行 SVD 以实现方差感知初始化等策略,从而通过数据感知的调整提高适应效率。

自适应方法根据任务特性或层重要性动态配置适配器以优化参数利用率。如 AdaLoRA (Zhang et al., 2023b) 和 EVA (Paischer et al., 2024) 等方法采用基于层重要性的秩分配和方差感知调整,有效平衡模型容量与计算成本,以实现高效微调。

尽管取得了这些进展,大多数基于 LoRA 的方法存储完整的冻结权重矩阵以及多个适配器,与原始 LoRA (Hu et al., 2022) 相比,内存节省有限。这凸显了需要更高效的方法来进一步降低内存和计算成本。

### 2.2 基于权重分解的方法

为了进一步减少微调所需的参数量并降低计算成本,开发了基于权重分解的方法来处理预训练权重。通常,基于权重分解的方法 (Han et al., 2023) 的基本步骤是将原始权重矩阵 $\bm{W}$ 分解为 $\bm{U}$、$\bm{\Sigma}$ 和 $\bm{V}$。SVFit (Sun et al., 2024) 仅微调前 $k$ 个奇异值,冻结 $\bm{U}$ 和 $\bm{V}$ 以保留主要成分。SVFT (Lingam et al., 2024) 冻结 $\bm{\Sigma}$ 并引入稀疏适配器以进行特定任务的适应。SVDiff (Han et al., 2023) 将奇异值微调应用于扩散模型,在减少存储的同时缓解过拟合。WeLore (Jaiswal et al., 2024) 通过识别低秩成分进行选择性微调,跨层优化秩减少,以最小的性能损失提高效率。

尽管这些方法减少了可训练参数,但它们需要存储 $\bm{U}$ 和 $\bm{V}$,使原始权重大小翻倍 (Lingam et al., 2024)。考虑到梯度和优化器状态,它们的内存占用超过预训练权重的两倍,使其比 LoRA (Hu et al., 2022) 和其他 PEFT 方法更消耗内存。

## 3 方法论

使用奇异值分解(SVD)微调预训练模型已被证明是一种在适应大规模模型同时最小化参数更新的有效方法 (Han et al., 2023; Sun et al., 2024; Lingam et al., 2024)。然而,传统的基于 SVD 的微调通过需要存储两个完整的分解矩阵而产生巨大的计算和内存开销,与标准权重存储相比,内存消耗实际上翻了一番。此外,冻结左和右奇异矩阵限制了模型的表达能力,使其相对于全参数微调次优。

为了克服这些局限性,我们提出了一个约束优化框架,该框架使用可训练矩阵选择性更新主要成分,同时丢弃与次要奇异向量相关的成分。通过在权重矩阵的主子空间内进行微调,我们的方法保留了预训练模型的核心表示能力,同时显著降低了内存需求,从而实现对下游任务的高效且稳定的适应。

> **图 3:** ViT-Large (Dosovitskiy, 2021)(在 ImageNet-21K (Deng et al., 2009) 上预训练)在不同累积能量保留率下,跨层和权重矩阵中保留的奇异值索引。查询 ($Q$)、键 ($K$)、值 ($V$) 和投影 ($P$) 矩阵...

相似文章

ShadowPEFT:面向参数高效微调的阴影网络

arXiv cs.CL

ShadowPEFT 提出一种集中式参数高效微调方法,通过深度共享的阴影模块细化 Transformer 层表示,在可训练参数量与 LoRA/DoRA 相当的情况下实现同等甚至更优的性能。

基于熵与低秩重构的高保真KV缓存摘要

Hacker News Top

提出一种SRC流水线,通过基于熵的选择和低秩重构对KV缓存进行摘要,而非直接裁剪token,在百万token的LLM上下文中降低显存占用,同时避免灾难性注意力错误。