尾巴中的捷径：通过微调更新的后验谱压缩进行去偏

arXiv cs.LG 2026/06/09 04:00 论文

debiasing fine-tuning spectral-compression svd spurious-correlations llm post-hoc

摘要

一种后验方法通过截断权重更新矩阵SVD的尾部来减少微调大语言模型中的虚假相关性。该方法在不重新训练或使用群体标签的情况下，将虚假群体差距最多减少5倍，精度损失小于2个百分点。

arXiv:2606.07596v1 公告类型：新摘要：微调常常在引入任务知识的同时引入虚假相关性，导致在少数群体中出现系统性失败。现有的缓解方法需要重新训练、群体标签或精心设计的反事实数据。我们展示了一种简单的后验干预方法，无需这些即可减少捷径依赖：截断 $\Delta W = W_\mathrm{ft} - W_\mathrm{base}$ 的 SVD 尾部，可以在保持任务精度的同时减少虚假群体差距。在三个指令微调模型（0.5B--7B）和四个分类基准上，top-k 截断在每个单元上将差距减少了 5 倍以上（在 CivilComments 上），精度损失小于 2 个百分点。我们提出，这是因为捷径响应位于 $\Delta W$ 的奇异值排序的尾部，这是一个关于截断行为的主张，而不是关于原始奇异值的，因为原始奇异值分布广泛，在所有四个数据集上看起来都一样。一个受控的边界案例（其中微调只学习了一个捷径）显示了预测的 FT 到基线的崩溃，而底部/随机 k 和匹配秩的 LoRA 控制排除了通用低秩近似和秩约束训练作为解释。我们将此视为初步证据，表明 $\Delta W$ 的奇异基是研究微调所学内容的有用坐标系。

查看原文

查看缓存全文

缓存时间: 2026/06/09 08:47

# 1 引言 来源: https://arxiv.org/html/2606.07596 marginparsep 已被更改。topmargin 已被更改。marginparpush 已被更改。页面布局违反了 ICML 样式。请不要更改页面布局，或包含 geometry、savetrees、fullpage 等会更改布局的包。我们无法可靠地撤销对样式的任意更改。请移除违规的包或布局更改命令，然后重试。尾部的捷径：通过微调更新的后验谱压缩进行去偏 Edward Sun¹ Dmitrii Troitskii² ††脚注:¹加州大学洛杉矶分校计算机科学系, 洛杉矶, 加利福尼亚州, 美国²东北大学 Khoury 计算机科学学院, 波士顿, 马萨诸塞州, 美国。通讯作者: Edward Sun , Dmitrii Troitskii 。权重空间对称性研讨会，与第 43 届国际机器学习大会联合举办，韩国首尔。2026 年。版权所有 2026 作者。###### 摘要 微调通常会在引入任务知识的同时引入虚假相关性，导致在代表性不足的群体上出现系统性失败。现有的缓解措施需要重新训练、群体标签或精心策划的反事实数据。我们展示了一种简单的后验干预，它不需要这些即可减少捷径依赖：截断 $\Delta W = W_{\mathrm{ft}} - W_{\mathrm{base}}$ 的 SVD 尾部可以减少虚假群体差距，同时保持任务准确性。在三个指令微调模型（0.5B–7B）和四个分类基准上，top-$k$ 截断在每个单元上以 $<2$ 个百分点的准确率损失减少差距，在 CivilComments 上减少高达 $5\times$。我们提出这是因为捷径响应位于 $\Delta W$ 奇异排序的尾部，这是关于截断行为的声明，而非原始奇异值（这些值分布广泛，在所有四个数据集上看起来相同）。一个受控的边界案例，其中微调仅有一个捷径可学，展示了预测的 FT 到基线的崩溃，而 bottom-/random-$k$ 和匹配秩的 LoRA 控制排除了通用低秩近似和秩约束训练作为解释。我们将此视为初步证据，表明 $\Delta W$ 的奇异基是研究微调所学内容的有用坐标系。参考图说明图 1:微调更新的后验谱压缩。对于每个权重矩阵，计算 $\Delta W = W_{\mathrm{ft}} - W_{\mathrm{base}}$，取其 SVD $\Delta W = U\Sigma V^{\top}$，仅保留最大的 $k$ 个奇异值，并重构 $\widetilde{W} = W_{\mathrm{base}} + U_{:,:k}\Sigma_{:k,:k}V_{:,:k}^{\top}$。无需重新训练、数据或群体标签；去偏来自*保留哪些*奇异方向。微调指令微调的 LLM 通常通过利用虚假相关性（Dixon 等，2018；Borkan 等，2019；McCoy 等，2019；Zhang 等，2019）实现高分布内准确率，导致在代表性不足的群体和对抗性输入上系统性失败（Wu 等，2022；Varma 等，2024；Zhou 等，2024；Yang 等，2025；Chen 等，2026；Wang 等，2025a；Salles 等，2025；Shui 等，2025）。现有缓解措施在训练过程中或数据本身上进行干预（Sagawa 等，2020；Wu 等，2022；Chen 等，2026；Zou 等，2025）：使用重新加权损失（提高少数群体权重）重新训练，用合成反事实示例扩充训练集，或在训练过程中修改中间表示。所有这些都需要群体标签、精心策划的反事实数据或完整的重新训练循环，并且没有一个直接检查捷径的存储方式。我们转而提出一个结构性问题：微调更新本身是否编码了任务信号和捷径之间的区别？我们分析微调权重和基础权重之间的差值 $\Delta W = W_{\mathrm{ft}} - W_{\mathrm{base}}$，将其分解为奇异值分解 $\Delta W = U\Sigma V^{\top}$，涵盖三个指令微调模型。我们发现，截断该分解的尾部会选择性移除捷径依赖，同时保持任务准确率。这一说法关乎奇异基作为有序坐标系：截断的行为似乎表明任务相关和捷径相关的方向占据排序的不同部分，尽管原始奇异值 $\sigma_i$ 分布广泛且没有可见的分离。结构是通过干预的效果恢复的，而非直接读取谱。这产生了一种无需标签、无需重新训练的去偏方法，同时伴随着一个尖锐的预测。与先前针对基础模型效率（Wang 等，2025c；b；Hsu 等，2022）、低秩训练（Hu 等，2021）或任务算术分析（Jain 等，2024；Ilharco 等，2023）的 SVD 工作不同，我们在事后压缩更新以针对尾部。解耦在所有四个自然捷径数据集上不同程度地出现：在 CivilComments 上最为显著（在 $<2$ 个百分点准确率损失下差距减少高达 $5\times$），在 MNLI、FEVER、QQP 上可见但较为温和。该假设预测了一个清晰的边界：如果微调除了捷径外没有其他信号，则不存在顶部与尾部的结构，唯一的去偏途径是将 $\Delta W$ 收缩到无偏的基础。一个受控的 IMDB-标记设置实现了这种情形（第 3.2 节）。Bottom-$k$、random-$k$ 和匹配秩的 LoRA 控制排除了通用低秩近似和秩约束训练。#### 贡献。(1) 一种无需标签、无需重新训练的去偏方法，基于 $\Delta W$ 的后验 top-$k$ SVD，在每个（模型，数据集）单元上以 $<2$ 个百分点准确率损失减少差距，在 CivilComments 上减少高达 $5\times$。(2) 一个行为机制（捷径响应位于奇异排序的尾部），在所有四个自然捷径数据集上解耦可见，在 CivilComments 上最为显著。(3) 一个受控的 IMDB 设置实现了预测的边界：一个双向完美的注入标记是 SFT 唯一能学习的信号，因此 $\Delta W$ 仅编码了捷径。由于没有顶部与尾部的结构可资利用，top-$k$ 只能将 $\Delta W$ 收缩至零，使模型返回到（无偏、准确）的基础；因此差距和准确率沿着 FT 到基线的轨迹同步移动。Bottom-/random-$k$ 和匹配秩的 LoRA 排除了通用低秩近似和秩约束训练。## 2 方法 #### 模型与任务。我们在五个分类任务上评估 Qwen2.5-0.5B-Instruct、Gemma-3-1B-IT 和 Qwen2.5-7B-Instruct。CivilComments-WILDS（Borkan 等，2019）包含与毒性标签共现的身份群体提及。MNLI（Williams 等，2018）是一项自然语言推理任务，其中前提和假设在蕴涵对中经常共享词汇内容，使得词汇重叠成为预测蕴涵的捷径。QQP（Sharma 等，2019）是一项释义识别任务，其中释义对中的两个问题往往具有较高的词重叠，再次提供了词汇捷径。FEVER（Thorne 等，2018）是一项事实验证任务，其中声称和检索到的证据在受支持的声称中经常共享大段文本，从而提供证据重叠作为捷径。我们按原样使用每个数据集，不进行过滤或重新平衡。一个 IMDB 情感数据集，其中注入了一个前缀标记（双向完美预测负类，存在则负类），作为边界情况：该标记是唯一可用的信号，因此 SFT 不编码其他内容。$\Delta W$ 没有顶部与尾部的结构可资利用，后验压缩的唯一途径是将 $\Delta W$ 收缩到零。基础模型从未见过该标记，并且在此分布上既无偏又准确，因此收缩更新使模型返回高准确率、低差距的点。所有任务均使用全参数 SFT，三个随机种子。评估使用群体平衡的验证集，报告准确率和虚假群体差距 $\Delta_{\mathrm{gap}} = \mathrm{Acc}_{\mathrm{maj}} - \mathrm{Acc}_{\mathrm{min}}$（对于无偏模型，$\Delta_{\mathrm{gap}} \approx 0$）。#### 后验压缩。对于每个二维权重矩阵（不包括偏置和层归一化），令 $\Delta W = U\Sigma V^{\top}$。在保留率 $\rho \in (0,1]$ 下，我们保留 $k = \lceil \rho r \rceil$ 个奇异值并重构 $\widetilde{W} = W_{\mathrm{base}} + U_{:,:k}\Sigma_{:k,:k}V_{:,:k}^{\top}$，无需进一步训练直接评估。#### 对照。Bottom-$k$ 保留最小的 $k$ 个值；random-$k$ 均匀随机选择 $k$ 个值。两者共同将大小排序与低秩近似分离开。#### LoRA 比较。在 CivilComments 上进行 LoRA（Hu 等，2021）秩扫描，$r \in \{16,32,64,128,256\}$，$\alpha = 2r$，三个随机种子。该比较测试*事后*截断（无约束 FT 然后丢弃尾部）与*秩约束训练*（优化器从一开始就将任务和捷径打包到固定子空间中）。我们并不声称 LoRA 是更差的 FT 方法，只指出事后截断利用的谱尾部结构在匹配秩的 LoRA 更新中不存在。## 3 结果 我们报告*偏差减少百分比* = $100 (\Delta_{\mathrm{ft}} - \Delta_{r}) / |\Delta_{\mathrm{ft}}|$ 和*准确率损失（百分点）* = $100 (\mathrm{acc}_{\mathrm{ft}} - \mathrm{acc}_{r})$。轨迹图以保留率 $r$ 为参数：每个点对应一个 $r$，当 $r$ 从 $90\% \to 5\%$ 扫描时，两条轴均不随 $r$ 单调变化。随着 $r$ 减小，轨迹先*向上*移动（尾部截断：偏差下降而准确率保持），然后*向右*移动（顶部成分被移除，准确率崩溃，模型回归基础）；非单调性反映了这种状态转换，而非噪声。### 3.1 每个（模型，数据集）单元均存在甜点 表 1 报告每个单元在甜点处的偏差减少：在无成本区域（准确率损失 $<2$ 个百分点）内的最大减少，括号内为 $r^*$。Top-$k$ 在所有 12 个单元上减少差距，从 23%（MNLI/Gemma-1B）到 68%（CivilComments/Qwen-0.5B）；11/12 超过 30%。在不同单元间，$r^*$ 范围从 5% 到 20%，Qwen-7B 一致地比小模型受益于更激进的截断。图 2 描绘了完整轨迹。有些轨迹在 $r=5\%$ 时超过 100%，因为模型已回归接近基础，剩余差距符号翻转（过度校正，而非超级去偏），因此我们报告区域内最大值。表 1:甜点保留率 $r^*$ 处的实证偏差减少（准确率损失 $<2$ 个百分点时的最大减少；括号内为 $r^*$）。直接测量，而非机制分解（第 3.2 节）。不包括 IMDB-标记：在其边界状态下，准确率急剧移出无成本区域（向上，朝向基础）；见附录 A。参考图说明图 2:偏差与准确率轨迹，以保留率 $r$ 为参数。每面板对应一个模型。每条曲线描绘 CivilComments / MNLI / QQP / FEVER 中一个数据集在 $r$ 从 $90\% \to 5\%$ 扫描时的（准确率损失，偏差减少）。绿色带：无成本区域（准确率损失 $<2$ 个百分点）；空心环标记每个数据集的甜点。绿色带左侧区域（准确率损失为负）也值得注意：当模型回归无偏基础时，群体平衡评估上的准确率可能超过微调水平，因为捷径原本就损害了平衡准确率。曲线先*向上*（尾部截断：偏差下降而准确率保持），然后*向右*（顶部截断：准确率崩溃，模型回归基础）；表现出的非单调性反映了这种状态转换，而非噪声。小 $r$ 处超过 100% 的值表示剩余差距符号翻转（模型回归基础），而非超级去偏；甜点总是 $\leq 100\%$。### 3.2 机制：奇异基中的排序 我们为上述实证结果提出一个机制，并使用 IMDB-标记暴露其预测的边界。记 $\Delta W = \sum_i \sigma_i u_i v_i^{\top}$。Top-$k$ 截断保留模型在方向 $v_1,\ldots,v_k$ 上的响应，并移除在 $v_{k+1},\ldots,v_n$ 上的响应。这种截断在减少差距的同时能保持准确率，暗示了一个方向性的行为论断：任务相关的输入主要由 $\Delta W$ 的右奇异向量顶部服务，捷径相关的输入由底部服务。我们称之为*谱分层假说*，明确这是关于奇异基中*排序*的论断，通过截断的效果恢复，而非关于能量集中。原始谱分布广泛，但截断在 CivilComments 上干净地移除了偏差相关成分。我们不主张“捷径具有小的奇异值”，只主张在行为上，截断较小 $\sigma_i$ 部分会优先移除捷径依赖。参考图说明图 3:轨迹形状区分了谱图像与其边界。归一化差距（左）和准确率（右）与保留率 $r$，Qwen-0.5B。CivilComments：差距和准确率*解耦*。差距通过甜点区域（绿色）下降到 $\sim 0.3 \Delta_{\mathrm{ft}}$，而准确率保持在 FT 水平（$\sim 0.81$）。谱分层预测了这一点：捷径和任务响应存在于奇异基的不同部分，因此移除尾部在不干扰另一个的情况下减少了其中一个。同样的解耦在 MNLI、FEVER、QQP 上以较小幅度出现（图 6）。IMDB-标记：差距和准确率沿着 FT 到基线的轨迹*同步*。准确率*上升*（$\sim 0.51 \to 0.87$），而差距*下降*（$\Delta_{\mathrm{ft}} \to 0$），在无偏基础处汇合。由于标记是 SFT 唯一能学习的信号，不存在顶部与尾部的结构；唯一的去偏途径是完全收缩 $\Delta W$。两种轨迹形状（自然捷径数据集上的解耦，IMDB-标记上的同步）是诊断性特征。

尾巴中的捷径：通过微调更新的后验谱压缩进行去偏

相似文章

利用记忆引导的数据集去偏方法缓解虚假相关性

自蒸馏作为大语言模型的性能恢复机制：对抗压缩和灾难性遗忘

密集段落检索中嵌入压缩的谱调整方法

谱遗忘恢复：无需重新训练即可事后恢复受损能力

量化破坏对齐：压缩大语言模型中偏见在不同模型与精度下的涌现

提交意见反馈