AdaPreLoRA:Adafactor 预条件低秩适应
摘要
AdaPreLoRA 是一种新颖的 LoRA 优化器,它利用 Adafactor 对角 Kronecker 预条件来改进因子空间更新,同时保持低内存占用,在各种大语言模型(LLM)和任务中表现出具有竞争力的性能。
查看缓存全文
缓存时间: 2026/05/13 08:12
论文页面 - AdaPreLoRA: Adafactor 预条件低秩适配
来源: https://huggingface.co/papers/2605.08734
摘要
本文通过基于替代矩阵和预条件器的统一框架分析了 LoRA 优化器,并提出了 AdaPreLoRA,这是一种利用 Adafactor 对角 Kronecker 预条件改善因子空间更新同时保持低内存占用的新方法。
低秩适配 (https://huggingface.co/papers?q=Low-Rank%20Adaptation) (LoRA) 将权重更新重新参数化为两个低秩因子的乘积,但生成映射 (https://huggingface.co/papers?q=generator%20mapping)(将因子映射到权重矩阵)的雅可比矩阵 (https://huggingface.co/papers?q=Jacobian) J_G 是秩亏的 (https://huggingface.co/papers?q=rank-deficient),因此由任何 W-空间预条件器 F_t 诱导的因子空间预条件器 (https://huggingface.co/papers?q=factor-space%20preconditioner) J_G^* F_t J_G 是奇异的, Consequently,标准链式法则 (https://huggingface.co/papers?q=chain%20rule) 无法唯一地求逆,以将预条件后的 W-空间方向映射回因子空间更新。我们将现有的 LoRA 优化器纳入一个统一框架,该框架由两个选择参数化:(i) 使用哪个 J_G^* F_t J_G 的可逆替代矩阵 (https://huggingface.co/papers?q=invertible%20surrogate),以及 (ii) 在 W 上使用哪个 F_t。现有方法在这些维度上分为四类:因子空间自适应更新、J_G^* J_G 的分块对角替代矩阵、Frobenius 残差伪逆 (https://huggingface.co/papers?q=Frobenius-residual%20pseudoinverse) 方法以及黎曼流形约束 (https://huggingface.co/papers?q=Riemannian%20manifold%20constraint)。在此设计空间中,一种感知梯度统计信息的 F_t 与在 O(m+n)r 内存下进行的闭式因子空间求解相结合,仍然未被充分探索。我们提出了 AdaPreLoRA,它通过采用 W 上的 Adafactor 对角 Kronecker 预条件器 (https://huggingface.co/papers?q=Adafactor%20diagonal%20Kronecker%20preconditioner) H_t 并从由此产生的因子空间解族 (https://huggingface.co/papers?q=factor-space%20solution%20family) 中选择最小化两个因子贡献之间 H_t 加权不平衡的元素,从而填补了这一空白;根据构造,所得的因子更新是在 H_t 加权范数下对预条件 W-空间方向最接近的 LoRA 近似 (https://huggingface.co/papers?q=LoRA%20approximation)。在 GPT-2 (E2E)、Mistral-7B 和 Qwen2-7B (GLUE, ARC, GSM8K) 以及扩散模型个性化任务上,AdaPreLoRA 与一组代表性的 LoRA 优化器相比具有竞争力或更优,同时将峰值 GPU 内存保持在 LoRA 优化器水平。
查看 arXiv 页面 (https://arxiv.org/abs/2605.08734) 查看 PDF (https://arxiv.org/pdf/2605.08734) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.08734)
在您的代理中获取此论文:
hf papers read 2605.08734
没有最新的 CLI? curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
没有链接此论文的模型
在模型 README.md 中引用 arxiv.org/abs/2605.08734 以从此页面链接它。
引用此论文的数据集 0
没有链接此论文的数据集
在数据集 README.md 中引用 arxiv.org/abs/2605.08734 以从此页面链接它。
引用此论文的 Spaces 0
没有链接此论文的 Space
在 Space README.md 中引用 arxiv.org/abs/2605.08734 以从此页面链接它。
包含此论文的合集 0
没有包含此论文的合集
将此论文添加到合集 (https://huggingface.co/new-collection) 以从此页面链接它。
相似文章
BaLoRA:大规模模型的贝叶斯低秩适应
BaLoRA 引入了低秩适应(LoRA)的贝叶斯扩展,通过缩小与全量微调之间的差距,提供校准良好的不确定性估计并提高预测准确性。
Queryable LoRA: 基于指令正则化的共享低秩更新原子路由
介绍了一种数据自适应的高效微调方法——Queryable LoRA,它利用共享的低秩更新原子记忆,结合基于注意力的路由和指令正则化,实现动态、上下文敏感的参数更新,同时保持可扩展性。
超越 LoRA 与全参数微调:基于梯度引导优化器路由的大语言模型适配
本文提出了一种混合 LoRA 与全参数微调(MoLF)框架,利用梯度引导的优化器路由在 LoRA 和全参数微调之间进行自适应切换。旨在通过结合全参数微调的可塑性与 LoRA 的正则化特性,克服仅依赖静态适配方法的结构局限性。
JumpLoRA:大语言模型持续学习的稀疏适配器
JumpLoRA 引入了一个新颖的稀疏适配器框架,用于大语言模型的持续学习。该方法使用 JumpReLU 门控来动态隔离任务参数并防止灾难性遗忘。它增强了基于 LoRA 的方法,并超越了 ELLA 等最先进的持续学习方法。
RDP LoRA:基于几何轨迹的大语言模型参数高效适配层选择方法
RDP-LoRA 通过几何轨迹分析与 Ramer-Douglas-Peucker 算法,自动挑出对参数高效微调最关键的层,效果优于全层及随机 LoRA 基线。