BaLoRA:大规模模型的贝叶斯低秩适应
摘要
BaLoRA 引入了低秩适应(LoRA)的贝叶斯扩展,通过缩小与全量微调之间的差距,提供校准良好的不确定性估计并提高预测准确性。
查看缓存全文
缓存时间: 2026/05/12 06:41
# 大规模模型的贝叶斯低秩适配 来源: https://arxiv.org/html/2605.08110 Dario Coscia mathLab, SISSA University of Amsterdam &Sindy Löwe CuspAI &Max Welling CuspAI University of Amsterdam与阿姆斯特丹大学合作完成。通信作者: [email protected]。 ###### 摘要 低秩适配(LoRA)已成为以较低计算成本微调大规模预训练模型的标准方法。然而,其低秩点估计更新限制了表达能力,与全量微调精度之间仍存在持续差距,且缺乏内置的不确定性量化,这限制了其在可靠性与准确性同等重要的场景中的应用。我们提出了 BaLoRA,即 LoRA 的贝叶斯扩展版本,采用一种新颖的输入自适应贝叶斯参数化方法来处理 LoRA 矩阵,仅增加极少参数和计算开销。令人惊讶的是,贝叶斯扩展不仅产生了校准良好的不确定性估计,而且我们方法背后的自适应噪声注入还显著提高了预测精度,缩小了自然语言推理和视觉任务中与全量微调的差距。当应用于金属有机框架(MOF)的带隙预测时,BaLoRA 产生的零样本测试时不确定性估计与模型误差的相关性比经过训练的 LoRA 集成模型更强,并且随着计算资源的增加单调提升,且不牺牲准确性。 ## 1 引言 大规模预训练模型在广泛的任务中展现了惊人的泛化能力,从自然语言处理(Qin et al., 2023; Touvron et al., 2023)和多模态应用(Liu et al., 2023)到原子模拟(Wood et al., 2025; Shoghi et al., 2024; Kang et al., 2023)。将这些模型适配到下游任务通常依赖于全量微调(FT),即使用特定任务数据更新所有参数。然而,随着模型规模的增大,由于高昂的计算和内存成本,全量微调变得不切实际。即使可行,部署多个微调实例也颇具挑战,因为每个实例都保留了完整的模型足迹。 参见图注 图1: BaLoRA 概述。(左)BaLoRA 扩展了 LoRA,将降维矩阵 $\bm{\theta}_A$ 视为具有输入自适应高斯噪声的随机变量,$\bm{\omega}_A \sim \mathcal{N}(\bm{\theta}_A, \alpha(\bm{x})\bm{\theta}_A^2)$,而 $\bm{\theta}_0$ 保持冻结。在推理阶段,BaLoRA 可以以确定性模式(零延迟,合并适配器)或随机模式(通过采样获得校准的不确定性)运行。(右)BaLoRA 在 LoRA 点估计周围放置一个输入自适应的不确定性椭球,限制在低秩空间内。不确定性随输入激活值缩放,将梯度信号集中在适配活跃的区域,并对预训练表示起到隐式正则化的作用。 参数高效微调(PEFT)(Houlsby et al., 2019)通过仅更新少量参数而冻结其余部分来解决这一问题,在不牺牲太多性能的情况下提高了效率。低秩适配(LoRA)(Hu et al., 2022)是一种广泛使用的 PEFT 方法,它将更新约束为低秩结构,用远少于全量微调的参数捕捉任务特定的变化。然而,LoRA 及相关方法受限于其低秩、点估计更新,这降低了表达能力,并与全量微调之间存在差距(Liu et al., 2024a)。此外,它们缺乏不确定性量化,这在安全关键和数据稀缺的设置中至关重要。这在材料科学和天气预报等科学领域尤为重要,其中可靠的不确定性估计必不可少(Wood et al., 2025; Bodnar et al., 2025; Coscia et al., 2025a, b)。 鉴于现有 PEFT 方法的局限性以及科学应用中对可靠不确定性估计日益增长的需求,我们提出了 BaLoRA,这是一种 LoRA 的贝叶斯扩展,同时解决了这两个挑战。BaLoRA 引入了 LoRA 降维矩阵的新颖输入自适应贝叶斯重参数化,将其条目视为随机变量而非固定的点估计。这使得不确定性可以通过自适应噪声注入在训练过程中自然编码,鼓励降维矩阵关注与高不确定性相关的输入,从而提高任务性能。在推理阶段,BaLoRA 可以通过合并适配器权重以确定性模式部署,如标准 LoRA 所示,不产生额外延迟;或者在需要不确定性估计时以贝叶斯模式部署。我们的主要贡献如下: - 我们提出了一种随机 PEFT 方法,对 LoRA 降维矩阵进行输入自适应贝叶斯重参数化,其中依赖输入的噪声注入充当隐式正则化器,简化训练并带来性能提升,同时实现严谨的不确定性量化。 - 我们推导了一种低秩局部重参数化技巧,利用 LoRA 分解在低维潜在空间中精确采样后验预测,避免了完整输出协方差的实例化,并保持了与标准 LoRA 相同的计算缩放比例。 - 我们在 6/8 个基准测试(Llama-3-8B)上达到了最先进的常识推理性能,以及在图像分类(ViT-L/16)上的先进性能,并展示了 BaLoRA 不确定性估计在实际科学环境(MOF 属性预测)中的实用价值,其中 BaLoRA 仅通过一次微调运行就超过了经过训练的 LoRA 集成模型。 ## 2 背景与相关工作 在本节中,我们介绍参数高效微调、低秩适配器、贝叶斯建模和不确定性量化的相关背景,这些将为后文提出的方法提供支持。 ### 2.1 参数高效微调(PEFT) 参数高效微调(PEFT)(Houlsby et al., 2019)通过仅更新一小部分参数,以较低的计算成本将大规模预训练模型适配到下游任务。主要可分为两类方法。*基于提示(Prompt-based)*的方法(Lester et al., 2021; Razdaibiedina et al., 2023; Liu et al., 2024b)在模型输入前追加可学习的软 token,仅优化这些额外向量,同时保持所有权重冻结。*基于适配器(Adapter-based)*的方法(Houlsby et al., 2019; Mahabadi et al., 2021)则向冻结的模型中注入小型可训练模块,提供强大的性能和训练稳定性。然而,大多数基于适配器的方法会产生推理开销,限制了其实际适用性。 诸如 LoRA(Hu et al., 2022)之类的低秩适配器不引入额外的推理延迟,其基于微调更新表现出低内在秩的观察(Aghajanyan et al., 2021)。由于 LoRA 在多种任务中的表现可能不如全量微调,因此提出了几种扩展方法。DoRA(Liu et al., 2024a)将权重更新分离为幅值和方向分量,仅对方向部分应用 LoRA 风格的更新。MoRA(Jian et al., 2024)将输入投影到压缩空间,使用更高秩的矩阵进行变换,并重构回原始空间。HiRA(Huang et al., 2025)利用哈达玛积(Hadamard product)保留高阶更新信息,增强模型的表达能力。 ### 2.2 贝叶斯模型与不确定性量化 贝叶斯方法通过将学习框定为概率推断(Hinton and Van Camp, 1993; Welling and Teh, 2011; Graves, 2011; Gal and Ghahramani, 2016),将权重视为随机变量,并通过贝叶斯定理(Bayes, 1763)从先验更新到后验,从而考虑深度学习中的不确定性。由于在大规模下精确计算后验是不可行的,实际方法依赖于近似。深度集成(Deep Ensembles)结合独立训练的模型进行隐式后验估计(Lakshminarayanan et al., 2017),自然扩展到参数高效设置,如集成 LoRA(Wang et al., 2023)。或者,变分方法将后验估计转化为对可处理分布的优化(Blundell et al., 2015; Kingma et al., 2015);值得注意的是,变分自适应 Dropout(Coscia et al., 2025a)以单个网络的成本实现了与集成相当的性能和不确定性。 ## 3 方法 在本节中,我们介绍贝叶斯低秩适配(BaLoRA),这是一种新颖的参数高效微调策略,建立在变分自适应 Dropout(Coscia et al., 2025a)基础之上,并通过在训练和推理期间自然编码不确定性来扩展 LoRA 方法。BaLoRA 的关键创新在于学习过程的贝叶斯重参数化,其中将自适应方差纳入 LoRA 降维矩阵(见图1)。在训练期间,输入自适应噪声充当随机正则化器,$\bm{\omega}_A$ 中较大的激活引发较大的扰动,导致模型学习更具鲁棒性的低秩表示。关键在于,自适应性确保扰动集中在激活值最大的区域,防止在最活跃的方向上发生过拟合,同时保持稳定方向不变。在测试时,BaLoRA 可以以确定性推理模式部署,相对于 LoRA 没有额外延迟;或者在需要不确定性量化时以贝叶斯模式部署。 ### 3.1 低秩适配 LoRA(Hu et al., 2022)是一种微调策略,它冻结预训练模型权重,并在神经网络的每个线性层中注入可训练的秩分解矩阵。对于预训练权重矩阵 $\bm{\theta}_0 \in \mathbb{R}^{k \times d}$,更新被约束为低秩分解 $\bm{\theta}_B \bm{\theta}_A$,其中 $\bm{\theta}_A \in \mathbb{R}^{r \times d}$ 是*降维*矩阵,$\bm{\theta}_B \in \mathbb{R}^{k \times r}$ 是*重构*矩阵,秩 $r \ll \min(d,k)$。给定输入 $\bm{x} \in \mathbb{R}^d$,输出为: $$ \bm{y} = \bm{\theta}_0 \bm{x} + \bm{\theta}_B \bm{\theta}_A \bm{x}. $$ 通常,$\bm{\theta}_A$ 从具有较小标准差的各向同性正态分布初始化,$\bm{\theta}_B$ 初始化为零,确保适配器在训练开始时不贡献任何信号。仅优化 $\bm{\theta}_A$ 和 $\bm{\theta}_B$;在推理时,适配器合并到预训练权重中为 $\bm{\theta} = \bm{\theta}_0 + \bm{\theta}_B \bm{\theta}_A$,不产生额外推理成本。 ### 3.2 贝叶斯自适应 LoRA 为了将不确定性纳入 LoRA,我们将降维矩阵的条目视为随机变量而非固定参数。我们用 $\bm{\omega}_A$ 表示随机降维矩阵。为了获得随机降维矩阵,我们像变分自适应 Dropout(Coscia et al., 2025a)中那样,通过依赖输入的 Gaussian 噪声扰动确定性降维矩阵 $\bm{\theta}_A$ 的每个条目: $$ \begin{split} \omega_{A;ij} &= \theta_{A;ij} + \sqrt{\alpha(\bm{x})\theta_{A;ij}^2}\epsilon_{ij}, \quad \bm{\epsilon}_{ij} \sim \mathcal{N}(0,1). \\ \iff q(\bm{\omega}_A \mid \bm{x}) &= \prod_{i=1}^{r}\prod_{j=1}^{d}\mathcal{N}(\theta_{A;ij}, \alpha(\bm{x})\theta_{A;ij}^2) \end{split} $$ 这里,$\alpha(\bm{x})$ 是一个轻量级推理网络,作为输入 $\bm{x}$ 的函数调节方差的总体尺度。直观地说,幅度较大的权重携带比例更多的不确定性,$\alpha$ 控制输入本身驱动该不确定性的程度。 在此后验分布下,由于 $\bm{\theta}_B$ 是确定性的,给定输入的输出预测分布恰好是高斯分布(推导见附录 A.1): $$ \bm{y} \sim \mathcal{N}\left(\bm{\theta}_0 \bm{x} + \bm{\theta}_B \bm{\theta}_A \bm{x}, \;\alpha \,\bm{\theta}_B \,\mathrm{diag}(\bm{\theta}_A^2 \bm{x}^2)\,\bm{\theta}_B^{\top}\right), $$ 其中平方是按元素应用的。关键的是,均值与标准 LoRA 前向传递一致,因此在推理时权重仍然可以合并为 $\bm{\theta} = \bm{\theta}_0 + \bm{\theta}_B \bm{\theta}_A$,不产生额外推理成本。此外,由于选择了乘性噪声,相对于 LoRA,唯一增加的参数来自推理网络,通常很轻量且可忽略不计。 #### 训练与 KL 散度。 变分自适应 Dropout 通过最大化证据下界(Evidence Lower Bound, ELBO)来训练贝叶斯模型,ELBO 在数据拟合(期望对数似然项)和模型复杂度(后验与先验之间的 KL 散度)之间进行权衡。ELBO 给出为: $$ \mathcal{L} = \mathbb{E}_{\bm{\omega}_A \sim q(\bm{\omega}_A \mid \bm{x})}\left[\log p(\mathbf{y} \mid \bm{\omega}_A, \bm{x})\right] - D_{KL}\left[q(\bm{\omega}_A \mid \bm{x}) \mid p(\bm{\omega}_A)\right]. $$ 在实践中,每次训练迭代中从变分后验中抽取单个蒙特卡洛样本可以很好地近似公式 (4)。我们使用了与 Coscia et al. (2025a) 相同的弱信息先验: $$ p(\bm{\omega}_A) = \prod_{i=1}^{r}\prod_{j=1}^{d}\mathcal{N}\left(0, \frac{1-p}{\theta_{A;ij}^2}\right), $$
相似文章
AdaPreLoRA:Adafactor 预条件低秩适应
AdaPreLoRA 是一种新颖的 LoRA 优化器,它利用 Adafactor 对角 Kronecker 预条件来改进因子空间更新,同时保持低内存占用,在各种大语言模型(LLM)和任务中表现出具有竞争力的性能。
MatryoshkaLoRA: Learning Accurate Hierarchical Low-Rank Representations for LLM Fine-Tuning
# Paper page - MatryoshkaLoRA: Learning Accurate Hierarchical Low-Rank Representations for LLM Fine-Tuning Source: [https://huggingface.co/papers/2605.07850](https://huggingface.co/papers/2605.07850) We propose**MatryoshkaLoRA**, a general, Matryoshka\-inspired training framework for LoRA that learns accurate hierarchical low\-rank representations by inserting a fixed, carefully crafted diagonal matrix**P**between the existing LoRA adapters to scale their sub\-ranks accordingly\. By introducing
RDP LoRA:基于几何轨迹的大语言模型参数高效适配层选择方法
RDP-LoRA 通过几何轨迹分析与 Ramer-Douglas-Peucker 算法,自动挑出对参数高效微调最关键的层,效果优于全层及随机 LoRA 基线。
超越 LoRA 与全参数微调:基于梯度引导优化器路由的大语言模型适配
本文提出了一种混合 LoRA 与全参数微调(MoLF)框架,利用梯度引导的优化器路由在 LoRA 和全参数微调之间进行自适应切换。旨在通过结合全参数微调的可塑性与 LoRA 的正则化特性,克服仅依赖静态适配方法的结构局限性。
JumpLoRA:大语言模型持续学习的稀疏适配器
JumpLoRA 引入了一个新颖的稀疏适配器框架,用于大语言模型的持续学习。该方法使用 JumpReLU 门控来动态隔离任务参数并防止灾难性遗忘。它增强了基于 LoRA 的方法,并超越了 ELLA 等最先进的持续学习方法。