ShadowPEFT:面向参数高效微调的阴影网络

arXiv cs.CL 论文

摘要

ShadowPEFT 提出一种集中式参数高效微调方法,通过深度共享的阴影模块细化 Transformer 层表示,在可训练参数量与 LoRA/DoRA 相当的情况下实现同等甚至更优的性能。

arXiv:2604.19254v1 公告类型:新增 摘要:参数高效微调(PEFT)通过仅训练少量任务特定参数并冻结预训练主干,降低大语言模型(LLM)全参数微调的训练成本。然而,现有方法(如 LoRA)通过在单个权重上插入独立的低秩扰动实现适应,导致适应过程呈现局部参数化。我们提出 ShadowPEFT,一种集中式 PEFT 框架,转而通过深度共享的阴影模块在层级别进行细化。在每个 Transformer 层,ShadowPEFT 维护并行的阴影状态,并反复演化以获得 progressively richer 的隐藏状态。该设计将适应从分布式权重空间扰动转移到共享的层空间细化过程。由于阴影模块与主干解耦,它可跨深度复用、独立预训练,并可选择以分离模式部署,惠及边缘计算场景。在生成与理解基准上的实验表明,在可训练参数量相近的情况下,ShadowPEFT 性能与 LoRA 和 DoRA 持平或更优。关于阴影预训练、跨数据集迁移、参数缩放、推理延迟及系统级评估的进一步分析表明,集中式层空间适应是传统低秩 PEFT 的有力且灵活的替代方案。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/22 08:30

# ShadowPEFT:面向参数高效微调的影子网络  
来源:https://arxiv.org/html/2604.19254  

###### 摘要  
参数高效微调(PEFT)仅训练少量任务相关参数并冻结预训练主干,从而降低大语言模型(LLM)全参数微调的开销。然而,现有方法(如 LoRA)通过在单个权重上插入独立的低秩扰动实现适配,导致适配过程局部参数化。我们提出 ShadowPEFT,一种集中式 PEFT 框架,改为通过“深度共享”的影子模块在层级别进行精炼。在每个 Transformer 层,ShadowPEFT 维护一条并行的影子状态,并反复演化该状态,使隐藏表示逐步丰富。该设计将适配从“分布式权重空间扰动”转变为“共享层空间精炼”。由于影子模块与主干解耦,它可在不同深度复用、独立预训练,并可选择以“ detached 模式”部署,利好边缘计算场景。在生成与理解基准上的实验表明,在可训练参数量相近的条件下,ShadowPEFT 性能持平或优于 LoRA 与 DoRA。针对影子预训练、跨数据集迁移、参数缩放、推理延迟及系统级评估的进一步分析显示,集中式层空间适配是传统低秩 PEFT 的有力且灵活的替代方案。

---

## 1 引言  
参数高效微调(PEFT)通过仅更新少量参数,显著降低 LLM 全参数微调的高昂成本,已成为各类下游任务中的实用方案[^Hanet al.2024]。代表性 PEFT 包括基于 prompt/前缀的方法[^Li & Liang,2021]、插入 Transformer 块的适配器模块[^Houlsby et al.2019],以及 LoRA[^Hu et al.2022] 等低秩权重适配方法及其变体(QLoRA[^Dettmers et al.2023]、DoRA[^Liu et al.2024] 等)。其中,LoRA 因简洁、高效且兼容现有训练流程,已成为事实上的主流选择。LoRA 在选定的线性投影中注入可训练的低秩更新,同时保持预训练权重冻结。  

尽管经验效果良好,LoRA 本质上采用“线性-局部”参数化:每个被选中的线性层拥有独立的可训练更新,任务适配由众多分散在深度方向的独立扰动叠加产生。虽然这些模块联合优化,但适配机制本身仍是碎片化的——各线性层学习独立变换,未显式共享适配状态或函数。此外,这种碎片化适配与主干内部权重结构强耦合,无法与主干解耦。  

本文探索另一种 PEFT 设计:将适配集中于一个共享的功能模块,该模块在 Transformer 层的隐藏表示上运行。我们提出 ShadowPEFT,它用轻量级、集中式的“影子网络”(结构与基模型相似但规模缩小)增强冻结主干,并在各层复用该影子网络。影子网络维护一条并行隐藏状态,沿深度方向迭代更新,并对主干激活产生加性修正。与“学习一组线性权重扰动”不同,ShadowPEFT 在 Transformer 层级别进行跨层参数共享的精炼,从而将适配重心从“分散线性扰动”转为“集中层空间精炼”,把 PEFT 视为学习可迁移的功能叠加,而非修改主干参数。  

由于影子模块与主干架构解耦,它可以作为独立组件训练、存储与部署,利好边缘计算。这带来两项标准 LoRA 难以实现的特性:  
1. 影子可插拔/可拆卸,无需改动冻结主干权重,支持模块化部署与独立版本管理。  
2. 影子可用更小规模的预训练模型初始化,使小模型(如 Qwen-0.5B)成为大模型(如 Qwen-8B)的可复用适配器,实现跨规模适配能力。  

我们比较了随机初始化和预训练影子,发现预训练显著提升“附着”与“分离”两种模式的性能。在涵盖生成与理解的多个基准(MMLU、GSM8K、SQuAD V2)上,ShadowPEFT 在可训练参数量相近甚至略少的情况下,性能持平或优于 LoRA 与 DoRA。进一步实验分析了影子预训练、分离式推理、分布外迁移、参数缩放、效率及系统级机器人意图评估,结果证实集中式 ShadowPEFT 是传统低秩适配的可行且灵活替代。  

**贡献总结**:  
1. 提出 ShadowPEFT,一种在 Transformer 层级别集成共享影子模块的 PEFT 框架;引入有状态的影子机制,在深度方向维护并更新并行隐藏表示,用于精炼冻结主干。  
2. 影子模块可插拔、可移植:既能附着/拆卸,也能用小规模预训练模型初始化,实现跨规模适配。  
3. 在多基准、多主干规模下,ShadowPEFT 在相近参数预算下持平或超越 LoRA/DoRA,并支持标准低秩 PEFT 无法实现的额外部署模式。  

---

## 2 相关工作  
随着 LLM 扩展到千亿参数,全参数微调对多数任务已不现实。替代方案是提示工程,包括小样本提示[^Liu et al.2022a] 与思维链推理[^Wei et al.2022],它们将任务指令直接注入输入而不改参数。虽极省参数,但受上下文长度限制且缺乏持久任务适配。  

参数高效适配旨在仅更新少量参数、冻结主干[^Xu et al.2026]。早期方法聚焦软提示:Prompt Tuning[^Lester et al.2021]、Prefix Tuning[^Li & Liang,2021]、P-Tuning[^Liu et al.2022b] 等仅优化少量连续提示向量,但表达力受限于提示维度。  

随后,适配器方法因其与 LLM 分层架构兼容而受关注。其在 Transformer 中插入轻量瓶颈模块并冻结主干[^Houlsby et al.2019]。后续工作提升模块化与可迁移性,如 AdapterSoup[^Chronopoulou et al.2023]、Tiny-attention adapter[^Zhao et al.2022]、Compacter[^Karimi Mahabadi et al.2021]。然而,各适配器独立优化,无显式跨层协调,可能引入冗余与不一致的深度适配。ShadowPEFT 虽表面类似共享适配器,但本质不同:它维护跨层演化的持久状态,实现全局协调与迭代精炼。  

低秩适配已成为最具影响力的 PEFT 范式。LoRA[^Hu et al.2022] 学习低秩矩阵并并行注入冻结权重,将完整激活层更新约束在低维子空间,显著减少可训练参数。后续扩展探索秩自适应(AdaLoRA[^Zhang et al.2023]、DyLoRA[^Valipour et al.2023]、LoRA-GA[^Wang et al.2024])、量化(QLoRA[^Dettmers et al.2023]、QA-LoRA[^Xu et al.2023])、多任务组合(Visual Tuning[^Che et al.2026]、MoELoRA[^Li et al.2024]、Mtl-LoRA[^Yang et al.2025]、LLM 安全[^Hsu et al.2024])等。  

尽管有效,LoRA 类方法仍呈“去中心化”参数化:低秩模块独立插入各层线性权重,每层学习独立更新,无显式跨层协调,导致适配在结构上碎片化,可能引发表示在深度上的不一致偏移。ShadowPEFT 的集中式参数设计可缓解该问题。  

---

## 3 ShadowPEFT 框架  
我们提出 ShadowPEFT,用集中式的*影子模型*在 Transformer 解码层而非线性层上适配冻结 LLM(基模型)。与在各线性权重分散注入可训练扰动的 LoRA(图1 左)不同,ShadowPEFT 将适配集中于一个跨深度复用的影子模型(图1 右)。核心思想是维护一条并行的*影子状态*,与冻结主干隐藏状态同步演化,并在每层提供任务自适应的精炼信号。  

### 3.1 概览  
设冻结基模型含 L 个 Transformer 解码层。输入序列 **x**,令第 ℓ 层解码器隐藏状态为 **h**_{out}^{(ℓ)} ∈ ℝ^{T×d},其中 T 为序列长度,d 为隐藏维度。*影子状态* **s**^{(ℓ)} ∈ ℝ^{T×d} 作为深度共享、任务自适应的参考轨迹。初始影子状态 **s**^{(0)} 由*影子主干* f_{shadow} 生成:  
**s**^{(0)} = f_{shadow}(**x**; θ_{shadow}).  

对每层 ℓ ≥ 1,ShadowPEFT 执行三步:  
1. **影子注入**:影子模型用当前影子状态 **s**^{(ℓ-1)} 调制上一层的基隐藏状态 **h**_{out}^{(ℓ-1)}。  
2. **基编码**:冻结基层 f_{base}^{(ℓ)} 处理精炼后的隐藏状态,输出 **h**_{out}^{(ℓ)}。  
3. **影子更新**:影子模型利用新获得的基隐藏表示 **h**_{out}^{(ℓ)} 将影子状态推进 **s**^{(ℓ-1)} → **s**^{(ℓ)}。  

基模型的第 0 层保持不变;注入与更新从第 1 层开始,共进行 L-1 次精炼。在此视角下,ShadowPEFT 可视为深度方向的状态空间适配:模型学习的是单条可迁移的适配路径,而非逐层独立的权重扰动。影子模型的更多架构设计见附录 A。  

### 3.2 影子注入模块  
在基层 ℓ ≥ 1 处理输入前,影子注入模块用当前影子状态 **s**^{(ℓ-1)} 调制 incoming 隐藏状态 **h**_{out}^{(ℓ-1)}(图2a)。此处集中式影子路径直接影响冻结主干。由于影子自输入初始化并跨层更新,它携带了跨深度共享的任务相关信息。ShadowPEFT 通过“当前主干表示与演化影子参考之间的差异”获得适配信号,而非在骨干块内学习独立权重扰动。

相似文章

Aletheia:基于梯度引导的层选择方法,实现跨架构的高效LoRA微调

arXiv cs.CL

Aletheia 提出了一种基于梯度引导的层选择方法,用于高效的 LoRA 微调。该方法通过轻量级梯度探针识别与任务相关的 Transformer 层,并选择性地应用适配器,在 14 个模型上实现了 15%-28% 的训练加速,同时保持了在 MMLU、GSM8K 和 HumanEval 基准测试中的下游性能。

GFT:基于无偏群组优势与动态系数修正,从模仿迈向奖励微调

Hugging Face Daily Papers

# 论文页面 - GFT:基于无偏群组优势与动态系数修正,从模仿迈向奖励微调 来源:[https://huggingface.co/papers/2604.14258](https://huggingface.co/papers/2604.14258) ## 摘要 Group Fine-Tuning 通过利用多样化的回复群组和自适应权重边界来解决监督微调的局限性,从而提升训练稳定性与效率。大语言模型通常在后训练中使用[监督微调](https://hug