AdaPreLoRA：Adafactor 预条件低秩适应

Hugging Face Daily Papers 2026/05/09 00:00 论文

摘要

AdaPreLoRA 是一种新颖的 LoRA 优化器，它利用 Adafactor 对角 Kronecker 预条件来改进因子空间更新，同时保持低内存占用，在各种大语言模型（LLM）和任务中表现出具有竞争力的性能。

低秩适应（LoRA）将权重更新重新参数化为两个低秩因子的乘积，但是将因子映射到权重矩阵的生成器的雅可比矩阵 $J_{G}$ 是秩亏的，因此由任何 ${W}$-空间预条件器 ${F}_t$ 诱导的因子空间预条件器 $J_{G}^* {F}_t J_{G}$ 是奇异的， consequently 标准链式法则不能唯一地反演以将预条件的 ${W}$-空间方向映射回因子空间更新。我们将现有的 LoRA 优化器纳入一个统一框架，该框架由两个选择参数化：（i）使用哪个 $J_{G}^* {F}_t J_{G}$ 的可逆替代，以及（ii）在 ${W}$ 上使用哪个 ${F}_t$。现有方法沿这些轴线分布在四个家族中：因子空间自适应更新、$J_{G}^* J_{G}$ 的块对角替代、Frobenius 残差伪逆方法和黎曼流形约束。在这个设计空间中，梯度统计感知的 ${F}_t$ 与在 ${O}((m+n)r)$ 内存下的闭式因子空间求解仍然未被充分探索。我们提出了 AdaPreLoRA，它通过采用 ${W}$ 上的 Adafactor 对角 Kronecker 预条件器 ${H}_t$ 并选择由此产生的因子空间解家族中使 ${H}_t$-加权失衡最小的元素来填补这一空白；通过构造，所得到的因子更新是在 ${H}_t$-加权范数下对预条件 ${W}$-空间方向最接近的 LoRA 近似。在 GPT-2 (E2E)、Mistral-7B 和 Qwen2-7B (GLUE, ARC, GSM8K) 以及扩散模型个性化方面，AdaPreLoRA 与一组代表性的 LoRA 优化器相比具有竞争力或有所改进，同时将峰值 GPU 内存保持在 LoRA 优化器级别。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/13 08:12

论文页面 - AdaPreLoRA: Adafactor 预条件低秩适配

来源: https://huggingface.co/papers/2605.08734

摘要

本文通过基于替代矩阵和预条件器的统一框架分析了 LoRA 优化器，并提出了 AdaPreLoRA，这是一种利用 Adafactor 对角 Kronecker 预条件改善因子空间更新同时保持低内存占用的新方法。

低秩适配 (https://huggingface.co/papers?q=Low-Rank%20Adaptation) (LoRA) 将权重更新重新参数化为两个低秩因子的乘积，但生成映射 (https://huggingface.co/papers?q=generator%20mapping)（将因子映射到权重矩阵）的雅可比矩阵 (https://huggingface.co/papers?q=Jacobian) $J_G$ 是秩亏的 (https://huggingface.co/papers?q=rank-deficient)，因此由任何 $W$ -空间预条件器 $F_t$ 诱导的因子空间预条件器 (https://huggingface.co/papers?q=factor-space%20preconditioner) $J_G^* F_t J_G$ 是奇异的， Consequently，标准链式法则 (https://huggingface.co/papers?q=chain%20rule) 无法唯一地求逆，以将预条件后的 $W$ -空间方向映射回因子空间更新。我们将现有的 LoRA 优化器纳入一个统一框架，该框架由两个选择参数化：(i) 使用哪个 $J_G^* F_t J_G$ 的可逆替代矩阵 (https://huggingface.co/papers?q=invertible%20surrogate)，以及 (ii) 在 $W$ 上使用哪个 $F_t$ 。现有方法在这些维度上分为四类：因子空间自适应更新、 $J_G^* J_G$ 的分块对角替代矩阵、Frobenius 残差伪逆 (https://huggingface.co/papers?q=Frobenius-residual%20pseudoinverse) 方法以及黎曼流形约束 (https://huggingface.co/papers?q=Riemannian%20manifold%20constraint)。在此设计空间中，一种感知梯度统计信息的 $F_t$ 与在 $O(m+n)r$ 内存下进行的闭式因子空间求解相结合，仍然未被充分探索。我们提出了 AdaPreLoRA，它通过采用 $W$ 上的 Adafactor 对角 Kronecker 预条件器 (https://huggingface.co/papers?q=Adafactor%20diagonal%20Kronecker%20preconditioner) $H_t$ 并从由此产生的因子空间解族 (https://huggingface.co/papers?q=factor-space%20solution%20family) 中选择最小化两个因子贡献之间 $H_t$ 加权不平衡的元素，从而填补了这一空白；根据构造，所得的因子更新是在 $H_t$ 加权范数下对预条件 $W$ -空间方向最接近的 LoRA 近似 (https://huggingface.co/papers?q=LoRA%20approximation)。在 GPT-2 (E2E)、Mistral-7B 和 Qwen2-7B (GLUE, ARC, GSM8K) 以及扩散模型个性化任务上，AdaPreLoRA 与一组代表性的 LoRA 优化器相比具有竞争力或更优，同时将峰值 GPU 内存保持在 LoRA 优化器水平。

查看 arXiv 页面 (https://arxiv.org/abs/2605.08734) 查看 PDF (https://arxiv.org/pdf/2605.08734) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.08734)

在您的代理中获取此论文：

hf papers read 2605.08734

没有最新的 CLI？ curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有链接此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.08734 以从此页面链接它。

引用此论文的数据集 0

没有链接此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.08734 以从此页面链接它。

引用此论文的 Spaces 0

没有链接此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.08734 以从此页面链接它。

包含此论文的合集 0

没有包含此论文的合集

将此论文添加到合集 (https://huggingface.co/new-collection) 以从此页面链接它。

AdaPreLoRA：Adafactor 预条件低秩适应

论文页面 - AdaPreLoRA: Adafactor 预条件低秩适配

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的合集 0

相似文章

BaLoRA：大规模模型的贝叶斯低秩适应

Queryable LoRA: 基于指令正则化的共享低秩更新原子路由

超越 LoRA 与全参数微调：基于梯度引导优化器路由的大语言模型适配

JumpLoRA：大语言模型持续学习的稀疏适配器

RDP LoRA：基于几何轨迹的大语言模型参数高效适配层选择方法

提交意见反馈