ShadowPEFT：面向参数高效微调的阴影网络

arXiv cs.CL 2026/04/22 04:00 论文

摘要

ShadowPEFT 提出一种集中式参数高效微调方法，通过深度共享的阴影模块细化 Transformer 层表示，在可训练参数量与 LoRA/DoRA 相当的情况下实现同等甚至更优的性能。

arXiv:2604.19254v1 公告类型：新增摘要：参数高效微调（PEFT）通过仅训练少量任务特定参数并冻结预训练主干，降低大语言模型（LLM）全参数微调的训练成本。然而，现有方法（如 LoRA）通过在单个权重上插入独立的低秩扰动实现适应，导致适应过程呈现局部参数化。我们提出 ShadowPEFT，一种集中式 PEFT 框架，转而通过深度共享的阴影模块在层级别进行细化。在每个 Transformer 层，ShadowPEFT 维护并行的阴影状态，并反复演化以获得 progressively richer 的隐藏状态。该设计将适应从分布式权重空间扰动转移到共享的层空间细化过程。由于阴影模块与主干解耦，它可跨深度复用、独立预训练，并可选择以分离模式部署，惠及边缘计算场景。在生成与理解基准上的实验表明，在可训练参数量相近的情况下，ShadowPEFT 性能与 LoRA 和 DoRA 持平或更优。关于阴影预训练、跨数据集迁移、参数缩放、推理延迟及系统级评估的进一步分析表明，集中式层空间适应是传统低秩 PEFT 的有力且灵活的替代方案。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/22 08:30

# ShadowPEFT：面向参数高效微调的影子网络  
来源：https://arxiv.org/html/2604.19254  

###### 摘要  
参数高效微调（PEFT）仅训练少量任务相关参数并冻结预训练主干，从而降低大语言模型（LLM）全参数微调的开销。然而，现有方法（如 LoRA）通过在单个权重上插入独立的低秩扰动实现适配，导致适配过程局部参数化。我们提出 ShadowPEFT，一种集中式 PEFT 框架，改为通过“深度共享”的影子模块在层级别进行精炼。在每个 Transformer 层，ShadowPEFT 维护一条并行的影子状态，并反复演化该状态，使隐藏表示逐步丰富。该设计将适配从“分布式权重空间扰动”转变为“共享层空间精炼”。由于影子模块与主干解耦，它可在不同深度复用、独立预训练，并可选择以“ detached 模式”部署，利好边缘计算场景。在生成与理解基准上的实验表明，在可训练参数量相近的条件下，ShadowPEFT 性能持平或优于 LoRA 与 DoRA。针对影子预训练、跨数据集迁移、参数缩放、推理延迟及系统级评估的进一步分析显示，集中式层空间适配是传统低秩 PEFT 的有力且灵活的替代方案。

---

## 1 引言  
参数高效微调（PEFT）通过仅更新少量参数，显著降低 LLM 全参数微调的高昂成本，已成为各类下游任务中的实用方案[^Hanet al.2024]。代表性 PEFT 包括基于 prompt/前缀的方法[^Li & Liang,2021]、插入 Transformer 块的适配器模块[^Houlsby et al.2019]，以及 LoRA[^Hu et al.2022] 等低秩权重适配方法及其变体（QLoRA[^Dettmers et al.2023]、DoRA[^Liu et al.2024] 等）。其中，LoRA 因简洁、高效且兼容现有训练流程，已成为事实上的主流选择。LoRA 在选定的线性投影中注入可训练的低秩更新，同时保持预训练权重冻结。  

尽管经验效果良好，LoRA 本质上采用“线性-局部”参数化：每个被选中的线性层拥有独立的可训练更新，任务适配由众多分散在深度方向的独立扰动叠加产生。虽然这些模块联合优化，但适配机制本身仍是碎片化的——各线性层学习独立变换，未显式共享适配状态或函数。此外，这种碎片化适配与主干内部权重结构强耦合，无法与主干解耦。  

本文探索另一种 PEFT 设计：将适配集中于一个共享的功能模块，该模块在 Transformer 层的隐藏表示上运行。我们提出 ShadowPEFT，它用轻量级、集中式的“影子网络”（结构与基模型相似但规模缩小）增强冻结主干，并在各层复用该影子网络。影子网络维护一条并行隐藏状态，沿深度方向迭代更新，并对主干激活产生加性修正。与“学习一组线性权重扰动”不同，ShadowPEFT 在 Transformer 层级别进行跨层参数共享的精炼，从而将适配重心从“分散线性扰动”转为“集中层空间精炼”，把 PEFT 视为学习可迁移的功能叠加，而非修改主干参数。  

由于影子模块与主干架构解耦，它可以作为独立组件训练、存储与部署，利好边缘计算。这带来两项标准 LoRA 难以实现的特性：  
1. 影子可插拔/可拆卸，无需改动冻结主干权重，支持模块化部署与独立版本管理。  
2. 影子可用更小规模的预训练模型初始化，使小模型（如 Qwen-0.5B）成为大模型（如 Qwen-8B）的可复用适配器，实现跨规模适配能力。  

我们比较了随机初始化和预训练影子，发现预训练显著提升“附着”与“分离”两种模式的性能。在涵盖生成与理解的多个基准（MMLU、GSM8K、SQuAD V2）上，ShadowPEFT 在可训练参数量相近甚至略少的情况下，性能持平或优于 LoRA 与 DoRA。进一步实验分析了影子预训练、分离式推理、分布外迁移、参数缩放、效率及系统级机器人意图评估，结果证实集中式 ShadowPEFT 是传统低秩适配的可行且灵活替代。  

**贡献总结**：  
1. 提出 ShadowPEFT，一种在 Transformer 层级别集成共享影子模块的 PEFT 框架；引入有状态的影子机制，在深度方向维护并更新并行隐藏表示，用于精炼冻结主干。  
2. 影子模块可插拔、可移植：既能附着/拆卸，也能用小规模预训练模型初始化，实现跨规模适配。  
3. 在多基准、多主干规模下，ShadowPEFT 在相近参数预算下持平或超越 LoRA/DoRA，并支持标准低秩 PEFT 无法实现的额外部署模式。  

---

## 2 相关工作  
随着 LLM 扩展到千亿参数，全参数微调对多数任务已不现实。替代方案是提示工程，包括小样本提示[^Liu et al.2022a] 与思维链推理[^Wei et al.2022]，它们将任务指令直接注入输入而不改参数。虽极省参数，但受上下文长度限制且缺乏持久任务适配。  

参数高效适配旨在仅更新少量参数、冻结主干[^Xu et al.2026]。早期方法聚焦软提示：Prompt Tuning[^Lester et al.2021]、Prefix Tuning[^Li & Liang,2021]、P-Tuning[^Liu et al.2022b] 等仅优化少量连续提示向量，但表达力受限于提示维度。  

随后，适配器方法因其与 LLM 分层架构兼容而受关注。其在 Transformer 中插入轻量瓶颈模块并冻结主干[^Houlsby et al.2019]。后续工作提升模块化与可迁移性，如 AdapterSoup[^Chronopoulou et al.2023]、Tiny-attention adapter[^Zhao et al.2022]、Compacter[^Karimi Mahabadi et al.2021]。然而，各适配器独立优化，无显式跨层协调，可能引入冗余与不一致的深度适配。ShadowPEFT 虽表面类似共享适配器，但本质不同：它维护跨层演化的持久状态，实现全局协调与迭代精炼。  

低秩适配已成为最具影响力的 PEFT 范式。LoRA[^Hu et al.2022] 学习低秩矩阵并并行注入冻结权重，将完整激活层更新约束在低维子空间，显著减少可训练参数。后续扩展探索秩自适应（AdaLoRA[^Zhang et al.2023]、DyLoRA[^Valipour et al.2023]、LoRA-GA[^Wang et al.2024]）、量化（QLoRA[^Dettmers et al.2023]、QA-LoRA[^Xu et al.2023]）、多任务组合（Visual Tuning[^Che et al.2026]、MoELoRA[^Li et al.2024]、Mtl-LoRA[^Yang et al.2025]、LLM 安全[^Hsu et al.2024]）等。  

尽管有效，LoRA 类方法仍呈“去中心化”参数化：低秩模块独立插入各层线性权重，每层学习独立更新，无显式跨层协调，导致适配在结构上碎片化，可能引发表示在深度上的不一致偏移。ShadowPEFT 的集中式参数设计可缓解该问题。  

---

## 3 ShadowPEFT 框架  
我们提出 ShadowPEFT，用集中式的*影子模型*在 Transformer 解码层而非线性层上适配冻结 LLM（基模型）。与在各线性权重分散注入可训练扰动的 LoRA（图1 左）不同，ShadowPEFT 将适配集中于一个跨深度复用的影子模型（图1 右）。核心思想是维护一条并行的*影子状态*，与冻结主干隐藏状态同步演化，并在每层提供任务自适应的精炼信号。  

### 3.1 概览  
设冻结基模型含 L 个 Transformer 解码层。输入序列 **x**，令第 ℓ 层解码器隐藏状态为 **h**_{out}^{(ℓ)} ∈ ℝ^{T×d}，其中 T 为序列长度，d 为隐藏维度。*影子状态* **s**^{(ℓ)} ∈ ℝ^{T×d} 作为深度共享、任务自适应的参考轨迹。初始影子状态 **s**^{(0)} 由*影子主干* f_{shadow} 生成：  
**s**^{(0)} = f_{shadow}(**x**; θ_{shadow}).  

对每层 ℓ ≥ 1，ShadowPEFT 执行三步：  
1. **影子注入**：影子模型用当前影子状态 **s**^{(ℓ-1)} 调制上一层的基隐藏状态 **h**_{out}^{(ℓ-1)}。  
2. **基编码**：冻结基层 f_{base}^{(ℓ)} 处理精炼后的隐藏状态，输出 **h**_{out}^{(ℓ)}。  
3. **影子更新**：影子模型利用新获得的基隐藏表示 **h**_{out}^{(ℓ)} 将影子状态推进 **s**^{(ℓ-1)} → **s**^{(ℓ)}。  

基模型的第 0 层保持不变；注入与更新从第 1 层开始，共进行 L-1 次精炼。在此视角下，ShadowPEFT 可视为深度方向的状态空间适配：模型学习的是单条可迁移的适配路径，而非逐层独立的权重扰动。影子模型的更多架构设计见附录 A。  

### 3.2 影子注入模块  
在基层 ℓ ≥ 1 处理输入前，影子注入模块用当前影子状态 **s**^{(ℓ-1)} 调制 incoming 隐藏状态 **h**_{out}^{(ℓ-1)}（图2a）。此处集中式影子路径直接影响冻结主干。由于影子自输入初始化并跨层更新，它携带了跨深度共享的任务相关信息。ShadowPEFT 通过“当前主干表示与演化影子参考之间的差异”获得适配信号，而非在骨干块内学习独立权重扰动。

ShadowPEFT：面向参数高效微调的阴影网络

相似文章

Aletheia：基于梯度引导的层选择方法，实现跨架构的高效LoRA微调

超越 FP16 + ONNX 的 Transformer 体积与推理优化（剪枝/图优化收效甚微）[P]

Meta-Tool：小语言模型的高效少样本工具适配

RDP LoRA：基于几何轨迹的大语言模型参数高效适配层选择方法

GFT：基于无偏群组优势与动态系数修正，从模仿迈向奖励微调

提交意见反馈