Echo-LoRA:通过跨层表示注入实现参数高效微调
摘要
本文介绍了 Echo-LoRA,这是一种新的参数高效微调方法,它将来自深层源层的跨层表示注入到浅层 LoRA 模块中,从而在不增加推理开销的情况下提升性能。
查看缓存全文
缓存时间: 2026/05/12 07:00
# Echo-LoRA:通过跨层表示注入实现参数高效微调
来源:https://arxiv.org/html/2605.08177
Yihang Peng$^1$ Peng Jin$^2$ Jie Gong$^1$ Xingyuan Chen$^2$ Lingjiao Xu$^2$ Ning Su$^2$ Yan Ran$^1$
$^1$ 西南石油大学计算机科学与软件工程学院
$^2$ 乐山师范学院电子信息与人工智能学院
###### 摘要
参数高效微调(PEFT)已成为将大语言模型适配到下游任务的实用途径,其中 LoRA 类方法因训练成本低、部署便捷而尤为引人关注。然而,大多数 LoRA 变体仅在每层的权重空间内修改更新规则,而 largely 忽略了深层网络形成的中间表示。我们提出了 Echo-LoRA,一种用于参数高效微调的跨层表示注入方法。在训练期间,Echo-LoRA 从较深的源层收集边界隐藏状态,将其聚合为样本级的“回声”(echo)表示,并利用轻量级的投影和门控网络将所得信号注入浅层的 LoRA 或 DoRA 模块。我们采用仅答案掩码(answer-only masking)、掩码蒸馏(masked distillation)和随机路由(stochastic routing)来保持该辅助路径的稳定,并减少训练与推理之间的差距。在八个常识推理基准测试中,Echo-LoRA 在 LLaMA-7B、LLaMA2-7B 和 LLaMA3-8B 上平均比报道的 LoRA 基线高出 5.7 个百分点。在我们统一实现的重现 LoRA 基线中,平均增益为 3.0 分;当与 DoRA 结合使用时,增益为 2.7 分。Echo 路径在训练后被丢弃,因此部署后的模型保持原始的低秩 LoRA/DoRA 形式,既不增加推理时的参数,也不增加推理计算量。
## 1 引言
大语言模型(LLMs)现已成为自然语言理解、文本生成和复杂推理的通用基础[15](https://arxiv.org/html/2605.08177#bib.bib15),[16](https://arxiv.org/html/2605.08177#bib.bib16),[17](https://arxiv.org/html/2605.08177#bib.bib17)。预训练模型很少直接用于下游应用;它们通常需要适配到新的任务分布或指令格式[2](https://arxiv.org/html/2605.08177#bib.bib2)。对于当代 LLM 而言,全量微调在训练内存和特定任务检查点存储方面仍然代价高昂,这使得高效适配成为一个实际的瓶颈[8](https://arxiv.org/html/2605.08177#bib.bib8),[11](https://arxiv.org/html/2605.08177#bib.bib11)。
PEFT 方法通过仅训练少量额外的或重新参数化的变量来减轻这一负担。适配器模块、提示(prompt)或前缀微调、以及低秩更新代表了此类方法的主要类别[11](https://arxiv.org/html/2605.08177#bib.bib11),[19](https://arxiv.org/html/2605.08177#bib.bib19),[21](https://arxiv.org/html/2605.08177#bib.bib21),[20](https://arxiv.org/html/2605.08177#bib.bib20)。LoRA 通常被用作默认的低秩基线:它使用两个低秩矩阵表示权重更新,训练效率高,并且可以在部署前合并到冻结的权重中[18](https://arxiv.org/html/2605.08177#bib.bib18)。后来的变体大多改进了这种权重更新的视角,例如通过自适应秩分配、基于向量的随机矩阵适配或幅值-方向分解[24](https://arxiv.org/html/2605.08177#bib.bib24),[23](https://arxiv.org/html/2605.08177#bib.bib23),[8](https://arxiv.org/html/2605.08177#bib.bib8)。
这种观点留下了一个尚未充分探索的问题:在适配过程中,可训练层应该接收什么信息?探针研究表明,Transformer 层并不扮演相同的角色。浅层更紧密地联系到词汇、句法和局部模式,而深层则倾向于编码更抽象的语义和与任务相关的信息[1](https://arxiv.org/html/2605.08177#bib.bib1),[22](https://arxiv.org/html/2605.08177#bib.bib22)。由设计可知,浅层 LoRA 模块根据前向传播中该点可用的表示来更新其层;它无法直接访问网络中后部出现的语义状态。我们认为,对于依赖全局判断、常识整合或结构化生成的任务,这种分离可能具有局限性。
Echo-LoRA 正是基于这一观察而构建。在训练期间,我们从深层源层提取答案边界表示,将其聚合为样本级的回声表示,并通过小型投影和门控网络将该表示注入浅层 LoRA/DoRA 模块。该设计使浅层适配模块能够访问源自深层语义状态的紧凑信号。由于这种跨层路径也可能引入虚假依赖,我们使用仅答案掩码、掩码蒸馏和随机路由来使辅助信号保持可控。
我们的贡献如下。我们引入了 Echo-LoRA,这是一种训练时的跨层注入机制,它将来自深层的答案边界表示馈送到浅层 LoRA/DoRA 适配模块中。我们将此机制与仅答案掩码、掩码蒸馏和随机路由相结合,使辅助路径有助于优化,但在推理时并不需要。我们在 LLaMA-7B、LLaMA2-7B 和 LLaMA3-8B 上评估了 Echo-LoRA。在八个常识推理数据集上,与报道的 LoRA 基线相比,平均分提高了 5.7 分;与我们统一实现中重现的 LoRA 基线相比,提高了 3.0 分。Echo-DoRA 将对应的 DoRA 基线提高了 2.7 分。在数学推理、代码生成和多任务知识理解上的额外实验也显示了类似的积极趋势。
## 2 相关工作
### 2.1 大语言模型的参数高效微调
扩展预训练语言模型使得全量微调的成本日益增加,且在部署中更难维护。PEFT 方法通过保持主干网络大部分冻结并更新一小部分可训练参数来回应这一挑战[11](https://arxiv.org/html/2605.08177#bib.bib11)。基于适配器的方法在原始网络中插入紧凑的可训练模块[11](https://arxiv.org/html/2605.08177#bib.bib11),[6](https://arxiv.org/html/2605.08177#bib.bib6),而提示和前缀微调则优化引导生成的连续向量[19](https://arxiv.org/html/2605.08177#bib.bib19),[21](https://arxiv.org/html/2605.08177#bib.bib21),[20](https://arxiv.org/html/2605.08177#bib.bib20)。
低秩更新构成了另一类广泛使用的 PEFT 家族。LoRA 通过两个低秩矩阵近似全量权重更新,并以适度的训练成本获得强劲的性能[18](https://arxiv.org/html/2605.08177#bib.bib18)。AdaLoRA 根据参数重要性调整秩预算[24](https://arxiv.org/html/2605.08177#bib.bib24);VeRA 固定随机矩阵并训练缩放向量[23](https://arxiv.org/html/2605.08177#bib.bib23);DoRA 将预训练权重分解为幅值和方向分量,以更好地模拟全量微调[8](https://arxiv.org/html/2605.08177#bib.bib8)。这些方法主要优化局部权重如何更新。Echo-LoRA 则提出了另一个问题:来自深层的隐藏状态能否作为浅层适配模块的有效条件信号?
### 2.2 中间表示与跨层信息
Transformer 隐藏状态随深度显著变化。探针和可解释性研究发现,浅层倾向于编码局部词汇和句法模式,而深层则捕获更抽象的语义信息[1](https://arxiv.org/html/2605.08177#bib.bib1),[22](https://arxiv.org/html/2605.08177#bib.bib22)。这种分层结构表明,深度本身可以提供有用的训练信号来源。
层间差异也在推理时得到利用。例如,DoLa 在解码过程中对比不同层的输出分布,以提高事实性和准确性[4](https://arxiv.org/html/2605.08177#bib.bib4)。这些结果促使我们将中间状态视为可复用的信号,而非一次性的计算痕迹。Echo-LoRA 在微调阶段遵循这一思路,我们将深层表示用作浅层 PEFT 模块的训练时辅助条件。
### 2.3 训练稳定性策略
随机计算路径和选择性监督是提高鲁棒性的标准工具。例如,Stochastic Depth 在训练期间丢弃层以减少对固定路径的依赖[12](https://arxiv.org/html/2605.08177#bib.bib12)。指令微调通常忽略提示词元的损失,仅通过目标答案位置进行反向传播[2](https://arxiv.org/html/2605.08177#bib.bib2)。Echo-LoRA 使用了相关的原理:由于 Echo 分支添加了一条仅用于训练的第二路径,我们限制了注入信号出现的位置,并随机化路径激活的时机。
## 3 方法
### 3.1 问题定义与 LoRA 预备知识
设输入序列为 $X=(x_1, ..., x_T)$。在指令调优中,序列通常是提示和答案的连接。我们用 $\mathcal{A}$ 表示答案词元的位置。模型在提示条件下自回归地预测这些答案词元,而提示位置通常不计入损失。
考虑 Transformer 块中的一个目标线性变换,其输入为 $\mathbf{u} \in \mathbb{R}^{d_{\text{in}}}$,输出为 $\mathbf{o} \in \mathbb{R}^{d_{\text{out}}}$。LoRA 保持预训练权重 $\mathbf{W}$ 冻结,并学习一个低秩更新:
$$
\mathbf{o} = \mathbf{W}\mathbf{u} + \Delta\mathbf{W}\mathbf{u}, \quad \Delta\mathbf{W} = \frac{\alpha}{r}\mathbf{B}\mathbf{A}, \tag{1}
$$
其中 $\mathbf{W} \in \mathbb{R}^{d_{\text{out}} \times d_{\text{in}}}$ 是冻结的预训练权重,$\mathbf{A} \in \mathbb{R}^{r \times d_{\text{in}}}$ 和 $\mathbf{B} \in \mathbb{R}^{d_{\text{out}} \times r}$ 是可训练的低秩矩阵,$r$ 是秩,$\alpha$ 是缩放系数。
此更新仍局限于目标层。它不使浅层可训练模块依赖于网络中后部出现的表示。如果深层隐藏状态包含与任务相关的语义信息,将它们用作训练时信号可能会改善浅层模块的适配。
### 3.2 整体框架
Echo-LoRA 使用深层表示作为浅层 PEFT 模块的辅助条件。在路由的训练步骤中,我们从深层源层收集答案边界位置的隐藏状态,将它们聚合成样本级的回声表示,并通过投影和门控网络将所得信号注入浅层目标 LoRA/DoRA 模块。
设 $\mathcal{S}$ 为源层集合,$\mathcal{T}$ 为目标层集合,源层位于目标层之后(更深)。对于样本 $b$,$t_b^\star$ 表示答案区域之前的边界位置。我们在此位置提取源层隐藏状态并取平均:
$$
\mathbf{z}_b = \frac{1}{|\mathcal{S}|} \sum_{l \in \mathcal{S}} \mathbf{h}^{(l)}_{b, t_b^\star}. \tag{2}
$$
这里 $\mathbf{h}^{(l)}_{b, t_b^\star}$ 是层 $l$ 在位置 $t_b^\star$ 的隐藏状态。我们使用此边界位置,因为它预计在答案生成开始之前总结了提示上下文。在实现上,第一次前向传播产生源表示,第二次前向传播将其作为停梯度(stop-gradient)条件;注入分支不通过第一次传递中获得的源隐藏状态进行反向传播。
给定 $\mathbf{z}_b$,Echo-LoRA 首先对其归一化,然后通过投影和门控网络计算注入向量。对于目标层 $l \in \mathcal{T}$ 和目标模块 $m$,计算如下:
$$
\bar{\mathbf{z}}_b = \text{Norm}(\mathbf{z}_b), \tag{3}
$$
$$
\mathbf{e}_b^{(l,m)} = \mathbf{W}_2^{(l,m)} \tanh\left(\mathbf{W}_1^{(l,m)} \bar{\mathbf{z}}_b\right), \tag{4}
$$
$$
\mathbf{g}_b^{(l,m)} = \sigma\left(\mathbf{U}_2^{(l,m)} \tanh\left(\mathbf{U}_1^{(l,m)} \bar{\mathbf{z}}_b\right) + \mathbf{b}^{(l,m)}\right), \tag{5}
$$
$$
\boldsymbol{\delta}_b^{(l,m)} = \lambda^{(l,m)} \left(\mathbf{e}_b^{(l,m)} \odot \mathbf{g}_b^{(l,m)}\right). \tag{6}
$$
投影参数 $\mathbf{W}_1^{(l,m)}$ 和 $\mathbf{W}_2^{(l,m)}$ 通过一个小瓶颈将深层表示映射到目标模块输出空间。门控参数 $\mathbf{U}_1^{(l,m)}$、$\mathbf{U}_2^{(l,m)}$ 和 $\mathbf{b}^{(l,m)}$ 以样本和模块依赖的方式过滤注入信号。标量 $\lambda^{(l,m)}$ 是可学习的尺度,$\odot$ 表示逐元素乘法,$\sigma(\cdot)$ 是 sigmoid 函数。我们将门控偏置初始化为负值,因此 Echo 分支以弱激活开始,不太可能在早期更新中占据主导地位。
最终注入的目标模块输出为:
$$
\tilde{\mathbf{o}}_{b,t}^{(l,m)} = \mathbf{o}_{b,t}^{(l,m)} + r_k M_{b,t} \boldsymbol{\delta}_b^{(l,m)}, \tag{7}
$$
其中 $\mathbf{o}_{b,t}^{(l,m)}$ 是原始模块输出,$\tilde{\mathbf{o}}_{b,t}^{(l,m)}$ 是注入后的输出,$M_{b,t} \in \{0, 1\}$ 是答案区域掩码,$r_k \in \{0, 1\}$ 是步骤 $k$ 的随机路由变量。由于源层在前向计算中位于目标层之后,训练使用两次传递:一次是提取源边界表示的 Echo-Off 传递,随后是一次将此表示注入浅层目标模块并计算损失的 Echo-On 传递。
> **图 1:Echo-LoRA 的整体框架。** 边界隐藏状态从深层提取,聚合为回声表示,并在训练期间注入浅层 LoRA 模块。
### 3.3 仅答案选择性注入
将回声信号应用于每个词元也会扰动提示位置,这些位置通常不对语言建模损失做出贡献。因此,我们将 Echo 注入限制在监督答案位置。
对于第 $b$ 个样本,二值掩码由监督语言建模标签构建:
$$
M_{b,t} = \begin{cases} 1, & y_{b,t} \neq -100, \\ 0, & \text{otherwise}. \end{cases} \tag{8}
$$
这里 $y_{b,t}$ 是位置 $t$ 的监督标签。被语言建模损失忽略的位置通常标记为 $-100$,因此掩码仅在预测答案词元的地方保留 Echo 注入。
### 3.4 随机路由
在整个训练过程中保持 Echo 路径激活可能会使模型过于依赖在推理时将不存在的分支。Echo-LoRA 使用随机路由来解决这种不匹配。
在训练步骤 $k$,伯努利变量决定是否启用 Echo 路径:
$$
r_k \sim \text{Bernoulli}(p_k). \tag{9}
$$
所有目标模块共享该...相似文章
Aletheia:基于梯度引导的层选择方法,实现跨架构的高效LoRA微调
Aletheia 提出了一种基于梯度引导的层选择方法,用于高效的 LoRA 微调。该方法通过轻量级梯度探针识别与任务相关的 Transformer 层,并选择性地应用适配器,在 14 个模型上实现了 15%-28% 的训练加速,同时保持了在 MMLU、GSM8K 和 HumanEval 基准测试中的下游性能。
超越 LoRA 与全参数微调:基于梯度引导优化器路由的大语言模型适配
本文提出了一种混合 LoRA 与全参数微调(MoLF)框架,利用梯度引导的优化器路由在 LoRA 和全参数微调之间进行自适应切换。旨在通过结合全参数微调的可塑性与 LoRA 的正则化特性,克服仅依赖静态适配方法的结构局限性。
RDP LoRA:基于几何轨迹的大语言模型参数高效适配层选择方法
RDP-LoRA 通过几何轨迹分析与 Ramer-Douglas-Peucker 算法,自动挑出对参数高效微调最关键的层,效果优于全层及随机 LoRA 基线。
ShadowPEFT:面向参数高效微调的阴影网络
ShadowPEFT 提出一种集中式参数高效微调方法,通过深度共享的阴影模块细化 Transformer 层表示,在可训练参数量与 LoRA/DoRA 相当的情况下实现同等甚至更优的性能。
MatryoshkaLoRA: Learning Accurate Hierarchical Low-Rank Representations for LLM Fine-Tuning
# Paper page - MatryoshkaLoRA: Learning Accurate Hierarchical Low-Rank Representations for LLM Fine-Tuning Source: [https://huggingface.co/papers/2605.07850](https://huggingface.co/papers/2605.07850) We propose**MatryoshkaLoRA**, a general, Matryoshka\-inspired training framework for LoRA that learns accurate hierarchical low\-rank representations by inserting a fixed, carefully crafted diagonal matrix**P**between the existing LoRA adapters to scale their sub\-ranks accordingly\. By introducing