AdaPreLoRA:Adafactor 预条件低秩适应

Hugging Face Daily Papers 论文

摘要

AdaPreLoRA 是一种新颖的 LoRA 优化器,它利用 Adafactor 对角 Kronecker 预条件来改进因子空间更新,同时保持低内存占用,在各种大语言模型(LLM)和任务中表现出具有竞争力的性能。

低秩适应(LoRA)将权重更新重新参数化为两个低秩因子的乘积,但是将因子映射到权重矩阵的生成器的雅可比矩阵 $J_{G}$ 是秩亏的,因此由任何 ${W}$-空间预条件器 ${F}_t$ 诱导的因子空间预条件器 $J_{G}^* {F}_t J_{G}$ 是奇异的, consequently 标准链式法则不能唯一地反演以将预条件的 ${W}$-空间方向映射回因子空间更新。我们将现有的 LoRA 优化器纳入一个统一框架,该框架由两个选择参数化:(i)使用哪个 $J_{G}^* {F}_t J_{G}$ 的可逆替代,以及(ii)在 ${W}$ 上使用哪个 ${F}_t$。现有方法沿这些轴线分布在四个家族中:因子空间自适应更新、$J_{G}^* J_{G}$ 的块对角替代、Frobenius 残差伪逆方法和黎曼流形约束。在这个设计空间中,梯度统计感知的 ${F}_t$ 与在 ${O}((m+n)r)$ 内存下的闭式因子空间求解仍然未被充分探索。我们提出了 AdaPreLoRA,它通过采用 ${W}$ 上的 Adafactor 对角 Kronecker 预条件器 ${H}_t$ 并选择由此产生的因子空间解家族中使 ${H}_t$-加权失衡最小的元素来填补这一空白;通过构造,所得到的因子更新是在 ${H}_t$-加权范数下对预条件 ${W}$-空间方向最接近的 LoRA 近似。在 GPT-2 (E2E)、Mistral-7B 和 Qwen2-7B (GLUE, ARC, GSM8K) 以及扩散模型个性化方面,AdaPreLoRA 与一组代表性的 LoRA 优化器相比具有竞争力或有所改进,同时将峰值 GPU 内存保持在 LoRA 优化器级别。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/13 08:12

论文页面 - AdaPreLoRA: Adafactor 预条件低秩适配

来源: https://huggingface.co/papers/2605.08734

摘要

本文通过基于替代矩阵和预条件器的统一框架分析了 LoRA 优化器,并提出了 AdaPreLoRA,这是一种利用 Adafactor 对角 Kronecker 预条件改善因子空间更新同时保持低内存占用的新方法。

低秩适配 (https://huggingface.co/papers?q=Low-Rank%20Adaptation) (LoRA) 将权重更新重新参数化为两个低秩因子的乘积,但生成映射 (https://huggingface.co/papers?q=generator%20mapping)(将因子映射到权重矩阵)的雅可比矩阵 (https://huggingface.co/papers?q=Jacobian) J_G 是秩亏的 (https://huggingface.co/papers?q=rank-deficient),因此由任何 W-空间预条件器 F_t 诱导的因子空间预条件器 (https://huggingface.co/papers?q=factor-space%20preconditioner) J_G^* F_t J_G 是奇异的, Consequently,标准链式法则 (https://huggingface.co/papers?q=chain%20rule) 无法唯一地求逆,以将预条件后的 W-空间方向映射回因子空间更新。我们将现有的 LoRA 优化器纳入一个统一框架,该框架由两个选择参数化:(i) 使用哪个 J_G^* F_t J_G 的可逆替代矩阵 (https://huggingface.co/papers?q=invertible%20surrogate),以及 (ii) 在 W 上使用哪个 F_t。现有方法在这些维度上分为四类:因子空间自适应更新、J_G^* J_G 的分块对角替代矩阵、Frobenius 残差伪逆 (https://huggingface.co/papers?q=Frobenius-residual%20pseudoinverse) 方法以及黎曼流形约束 (https://huggingface.co/papers?q=Riemannian%20manifold%20constraint)。在此设计空间中,一种感知梯度统计信息的 F_t 与在 O(m+n)r 内存下进行的闭式因子空间求解相结合,仍然未被充分探索。我们提出了 AdaPreLoRA,它通过采用 W 上的 Adafactor 对角 Kronecker 预条件器 (https://huggingface.co/papers?q=Adafactor%20diagonal%20Kronecker%20preconditioner) H_t 并从由此产生的因子空间解族 (https://huggingface.co/papers?q=factor-space%20solution%20family) 中选择最小化两个因子贡献之间 H_t 加权不平衡的元素,从而填补了这一空白;根据构造,所得的因子更新是在 H_t 加权范数下对预条件 W-空间方向最接近的 LoRA 近似 (https://huggingface.co/papers?q=LoRA%20approximation)。在 GPT-2 (E2E)、Mistral-7B 和 Qwen2-7B (GLUE, ARC, GSM8K) 以及扩散模型个性化任务上,AdaPreLoRA 与一组代表性的 LoRA 优化器相比具有竞争力或更优,同时将峰值 GPU 内存保持在 LoRA 优化器水平。

查看 arXiv 页面 (https://arxiv.org/abs/2605.08734) 查看 PDF (https://arxiv.org/pdf/2605.08734) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.08734)

在您的代理中获取此论文:

hf papers read 2605.08734

没有最新的 CLI? curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有链接此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.08734 以从此页面链接它。

引用此论文的数据集 0

没有链接此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.08734 以从此页面链接它。

引用此论文的 Spaces 0

没有链接此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.08734 以从此页面链接它。

包含此论文的合集 0

没有包含此论文的合集

将此论文添加到合集 (https://huggingface.co/new-collection) 以从此页面链接它。

相似文章

JumpLoRA:大语言模型持续学习的稀疏适配器

arXiv cs.CL

JumpLoRA 引入了一个新颖的稀疏适配器框架,用于大语言模型的持续学习。该方法使用 JumpReLU 门控来动态隔离任务参数并防止灾难性遗忘。它增强了基于 LoRA 的方法,并超越了 ELLA 等最先进的持续学习方法。