Residual Paving：诊断选择性拒绝编辑中的路由瓶颈

arXiv cs.LG 2026/05/21 04:00 论文

摘要

介绍Residual Paving，一种针对冻结指令调优Transformer的路由残差编辑方法，将路由选择性（是否干预）与残差编辑能力（应用何种编辑）分离，在Gemma-3-4B-IT上显著降低了编辑拒绝率，同时保留了良性和有害行为。

arXiv:2605.20262v1 公告类型：新摘要：我们将选择性拒绝编辑作为一个三路控制问题来研究：在指定编辑提示上诱导非拒绝，同时保留编辑集外的良性行为和有害拒绝。我们引入了Residual Paving，一种针对冻结指令调优Transformer的路由残差编辑方法，它将路由选择性（是否干预）与残差编辑能力（应用何种编辑）分离。早期层路由器预测一个标量门和专家混合；当激活时，基于提示的瓶颈残差专家应用后层的残差更新，同时保持骨干网络不变。这种分解支持一个oracle路由诊断，其中仅将学习到的标量门替换为保留的编辑/保持标签，而残差编辑器和冻结骨干保持不变。在主要的Gemma-3-4B-IT保留分割上，学习到的Residual Paving将编辑拒绝从88.6%降低到4.0%，同时保持了95.5%的良性分布和87.3%的有害分布。相同协议的单方向控制方法在编辑成功率上弱得多，Edit-target ActAdd的编辑拒绝为86.8%，DIM式拒绝引导为78.9%。剩余的失败是目标外的有害保持退化：有害拒绝率低于冻结基线，65.3%对81.6%。在六个骨干网络上，oracle路由在每个报告行上都提高了保持侧诊断分数，中位增益为+12.9个百分点，支持了学习到的路由选择性是主要观察到的瓶颈这一解释。在两个骨干网络上的轨迹诊断进一步表明，运动方向倾向于编辑目标的延续，而非泛化的拒绝抑制。

查看原文

查看缓存全文

缓存时间: 2026/05/21 06:21

# Residual Paving: 诊断选择性拒绝编辑中的路由瓶颈 来源：https://arxiv.org/html/2605.20262 Bryce Hinkley 德克萨斯大学圣安东尼奥分校 bryce\.hinkley@utsa\.edu & Peyman Najafirad 德克萨斯大学圣安东尼奥分校 peyman\.najafirad@utsa\.edu ###### 摘要 我们将选择性拒绝编辑研究为一个三路控制问题：在指定的编辑提示上诱导非拒绝行为，同时保留编辑集之外的良性行为和有害拒绝。我们提出 Residual Paving，一种针对冻结指令调优 transformer 的路由残差编辑方法，它将路由选择性（是否干预）与残差编辑能力（应用何种编辑）分离开来。早期层的路由器预测标量门控和专家混合；当激活时，提示条件化的瓶颈残差专家在后续层应用残差更新，同时保持骨干网络不变。这种分解支持一种预言路由诊断：仅用留出的编辑/保留标签替换学得的标量门控，而残差编辑器和冻结骨干网络保持不变。在主要 Gemma-3-4B-IT 留出分割上，学得的 Residual Paving 将编辑拒绝率从88.6%88.6\\%降低至4.0%4.0\\%，良性分布保持率为95.5%95.5\\%，有害分布保持率为87.3%87.3\\%。相同协议的单方向引导控制方法在编辑成功率上弱得多，编辑拒绝率在 Edit-target ActAdd 上为86.8%86.8\\%，在 DIM 风格拒绝引导上为78.9%78.9\\%。剩余失败在于偏离目标的有害保留退化：有害拒绝率仍低于冻结基线，65.3%65.3\\%对比81.6%81.6\\%。在六个骨干网络上，预言路由在每一个报告行上都提高了保留侧的诊断得分，中位增益为\+12.9\+12.9pp，这支持了学得的路由选择性是主要观测瓶颈的解释。两个骨干网络上的轨迹诊断进一步表明，存在向编辑目标续写而非通用拒绝抑制的定向移动。 ## 1 引言 大规模语言模型中的拒绝行为是一种核心安全机制，可防止生成有害、非法或不安全的内容。选择性编辑该机制是受控红队测试、降低拒绝条件下的能力评估以及安全对齐鲁棒性分析的有用试验台——所有这些都需要在指定的探针集上禁用拒绝行为，同时保留对真正有害提示的拒绝。该任务存在一个清晰的三路区分：编辑提示（策略上期望非拒绝）、良性保留（保持普通帮助行为）和有害保留（保留基线模型拒绝）。成功的干预必须足够强以改变指定目标上的行为，又足够有选择性以保留目标区域外的良性行为和有害拒绝。其区分在于是否属于指定的编辑集——控制器必须仅从提示内容中识别，而非“拒绝”与“回答”之分。参见图注图1:选择性拒绝编辑。全局拒绝编辑可能跨越编辑/保留边界；Residual Paving 旨在将编辑局部化到指定的编辑桶EE，同时良性保留BB和有害保留HH被评估基线保持情况。#### 为何困难。 激活引导研究表明，残差空间的干预可以在不重新训练的情况下改变行为（Turner et al., 2023 (https://arxiv.org/html/2605.20262#bib.bib4); Zou et al., 2023a (https://arxiv.org/html/2605.20262#bib.bib5); Panickssery et al., 2023 (https://arxiv.org/html/2605.20262#bib.bib6)），而拒绝机制研究指出拒绝由结构化潜在特征表示（Arditi et al., 2024 (https://arxiv.org/html/2605.20262#bib.bib12); Marshall et al., 2024 (https://arxiv.org/html/2605.20262#bib.bib26); Wollschläger et al., 2025 (https://arxiv.org/html/2605.20262#bib.bib27)）。同样的结构使选择性编辑变得困难：编辑提示和有害保留可能共享与拒绝相关的激活，因此单一的全局拒绝方向或拒绝分类器不一定能满足三路目标（Zhao et al., 2025 (https://arxiv.org/html/2605.20262#bib.bib29); Wang et al., 2025b (https://arxiv.org/html/2605.20262#bib.bib30); Wu et al., 2026 (https://arxiv.org/html/2605.20262#bib.bib37)）。双重用途边界本身就是任务定义的一部分：对有害保留的非拒绝是任何部署的选择性编辑器必须避免的偏离目标失败（Mazeika et al., 2024 (https://arxiv.org/html/2605.20262#bib.bib7); Chao et al., 2024 (https://arxiv.org/html/2605.20262#bib.bib22); Souly et al., 2024 (https://arxiv.org/html/2605.20262#bib.bib9)）。 #### 当前方法遗留的问题。 基线比较测试了三路协议能否通过简单的单方向激活引导解决。在匹配协议下，对留出分割，Difference-in-Means 基线在s=8s=8时编辑拒绝率为78.9%78.9\\%，Edit-target ActAdd 基线在s=2s=2时为86.8%86.8\\%（各基线尺度在保持约束下最大化编辑成功选择；完整扫描见附录表18 (https://arxiv.org/html/2605.20262#A2.T18)）。这些控制并非与 Residual Paving 能力相等的竞争者；它们回答了一个更窄的问题。它们在编辑侧上的失败促使了路由残差编辑——其中路由选择和残差编辑执行是联合学习的。 #### 方法。 Residual Paving 是一种针对三路选择性拒绝目标的路由残差编辑方法。路由器读取早期残差状态并判断提示是否属于指定的编辑桶；若激活，则提示条件化的瓶颈残差专家混合体在后续层应用残差更新。这种路由/编辑分离不仅是用于诊断的，也是操作性的：学得的路由提供了非预言推理控制器，而固定的残差编辑器提供了足够的编辑强度，以在主要分割上大幅降低目标拒绝。相同的架构分离也支持预言路由：仅将标量路由替换为留出的编辑/保留标签，以诊断剩余错误来自路由还是编辑执行。 #### 贡献。 我们的贡献有四个方面。首先，我们引入 Residual Paving，一种针对选择性拒绝编辑的路由残差编辑方法，将提示级路由选择与残差空间编辑执行分开。其次，我们展示学得的控制器在主要 Gemma-3-4B-IT 分割上显著改善了编辑侧，将编辑拒绝率从88.6%88.6\\%降低至4.0%4.0\\%，同时保持良性分布和有害分布分别为95.5%95.5\\%和87.3%87.3\\%。第三，我们展示该方法的主要设计选择是承重的：均匀平均残差专家、移除对比预热或限制干预到后期层会急剧降低编辑成功率；一个单一学得的专家在主要骨干网络上匹配K=3K=3，因此多专家专业化并非承重主张。第四，由于路由和编辑分离，我们使用预言路由作为诊断，保持残差编辑器固定仅替换标量路由，表明剩余保留差距集中在学得的路由选择性上（在所评估的分割上）。 ## 2 相关工作 #### 激活控制、拒绝几何与局部化。 Residual Paving 建立在冻结模型激活引导的基础上，从基于提示对比或总体结构的残差方向（Turner et al., 2023 (https://arxiv.org/html/2605.20262#bib.bib4); Zou et al., 2023a (https://arxiv.org/html/2605.20262#bib.bib5); Panickssery et al., 2023 (https://arxiv.org/html/2605.20262#bib.bib6)）到指令跟随、条件性、自适应、回溯、几何和反馈风格的控制（Stolfo et al., 2024 (https://arxiv.org/html/2605.20262#bib.bib14); Lee et al., 2024 (https://arxiv.org/html/2605.20262#bib.bib13); Wang et al., 2025a (https://arxiv.org/html/2605.20262#bib.bib25); Zhao et al., 2025 (https://arxiv.org/html/2605.20262#bib.bib29); Cheng et al., 2025 (https://arxiv.org/html/2605.20262#bib.bib15); Vu and Nguyen, 2025 (https://arxiv.org/html/2605.20262#bib.bib16); Nguyen et al., 2026 (https://arxiv.org/html/2605.20262#bib.bib17)）。拒绝机制工作识别了低维方向以及后来的仿射、多方向、锥结构或有害性分离的描述（Arditi et al., 2024 (https://arxiv.org/html/2605.20262#bib.bib12); Marshall et al., 2024 (https://arxiv.org/html/2605.20262#bib.bib26); Wollschläger et al., 2025 (https://arxiv.org/html/2605.20262#bib.bib27); Zhao et al., 2025 (https://arxiv.org/html/2605.20262#bib.bib29); Wu et al., 2026 (https://arxiv.org/html/2605.20262#bib.bib37)），相关研究涉及迁移、稀疏特征、过度拒绝和细粒度拒绝控制（Wang et al., 2025b (https://arxiv.org/html/2605.20262#bib.bib30); Siu et al., 2026 (https://arxiv.org/html/2605.20262#bib.bib36); Deng et al., 2025 (https://arxiv.org/html/2605.20262#bib.bib31); O'Brien et al., 2025 (https://arxiv.org/html/2605.20262#bib.bib32); García-Ferrero et al., 2025 (https://arxiv.org/html/2605.20262#bib.bib35)）。参数编辑方法和任务向量或 LoRA 风格的适应通过改变权重局部化编辑（Meng et al., 2022 (https://arxiv.org/html/2605.20262#bib.bib38), 2023 (https://arxiv.org/html/2605.20262#bib.bib39); Ilharco et al., 2023 (https://arxiv.org/html/2605.20262#bib.bib40); Hu et al., 2022 (https://arxiv.org/html/2605.20262#bib.bib41)）；专家混合工作研究了专门的内部路径（Shazeer et al., 2017 (https://arxiv.org/html/2605.20262#bib.bib1); Fedus et al., 2021 (https://arxiv.org/html/2605.20262#bib.bib2); Fayyaz et al., 2025 (https://arxiv.org/html/2605.20262#bib.bib19)）。针对越狱、过度安全、虚假拒绝和上下文不服从的基准测试促使测量目标编辑成功与离目标保留（Zou et al., 2023b (https://arxiv.org/html/2605.20262#bib.bib20); Chao et al., 2023 (https://arxiv.org/html/2605.20262#bib.bib21); Röttger et al., 2023 (https://arxiv.org/html/2605.20262#bib.bib3); Cui et al., 2024 (https://arxiv.org/html/2605.20262#bib.bib23); Xie et al., 2024 (https://arxiv.org/html/2605.20262#bib.bib24); Zhang et al., 2025 (https://arxiv.org/html/2605.20262#bib.bib28); Brahman et al., 2024 (https://arxiv.org/html/2605.20262#bib.bib11)）。Residual Paving 保持骨干网络冻结，将外部路由/编辑/否决控制表面附加到残差状态，并使用编辑集成员资格而非通用拒绝标签；这种分解通过仅替换标量门控实现了预言交换。 ## 3 方法 Residual Paving 将选择性拒绝编辑分解为两个可分离的功能：路由选择和残差编辑。路由器读取缓存的早期残差状态，判断提示是否位于指定的编辑区域，并基于门控条件，一个提示条件化的残差专家混合体在后续层实现编辑。预言路由是一种诊断而非基线。保持残差专家、混合比例、尺度和冻结骨干网络固定，我们仅将学得的标量门控替换为留出的路由标签。剩余错误随后被定位到路由选择性（预言保留了学得路由未能保留的保持）或残差编辑能力（预言仍然不能实现编辑）。 ### 3.1 问题：三路控制目标 令$M_0$为一个冻结语言模型，具有残差状态$h_{\ell,t}(x)$和基础分布$p_0(\cdot \mid x, y_{<t})$。给定一个指定的编辑集$E \subset \mathcal{X}$和保持集$B, H \subset \mathcal{X}$，我们希望构造一个干预后的分布$p_{\theta,\pi}$，使得：
- 对于$x \in E$，$p_{\theta,\pi}$做出与$x$的内容协调的非拒绝回答（编辑成功）；
- 对于$x \in B$，$p_{\theta,\pi}$保持接近$p_0$（良性保持）；
- 对于$x \in H$，$p_{\theta,\pi}$保持基线的拒绝行为（有害保持）。

我们的实验设置包括一个路由学习子问题和一个残差编辑子问题，分别通过一组可训练参数$\theta$和一个门控策略$\pi$参数化。该分解支持预言路由诊断：我们保持$\theta$固定而仅将$\pi$替换为留出的标签$g^\star(x)$。

### 3.2 分解：残差专家的路由路由
Residual Paving 通过在干预层上附加一个外部头来实现，该头由三个组件组成：残差路由器、一组瓶颈残差专家和一个可选的否决模块。对于提示$x$，路由器计算特征$z(x)$（通过与路由层对应的早期残差隐状态的池化均值），然后输出门控对数$a_\theta(x)$（标量）和通过顶部 softmax 的专家权重$w_{\theta}(x) \in \triangle^{K}$。瓶颈专家$e_{\theta,k}$是由$\ell \in \mathcal{L}_I$和$t$条件化的低秩残差更新：
$$e_{\theta,k,\ell,t}(h) = U_{\theta,k} \cdot \sigma(V_{\theta,k} h) \quad \text{(瓶颈)}$$
其中$\sigma$为非线性函数，$U,V$为可训练的低秩矩阵。然后通过三个门控策略之一缩放这些更新的和：
$$\gamma_{\text{hard}}(x) = \mathbb{1}[a_\theta(x) > \tau],$$
$$\gamma_{\text{thr}}(x) = \sigma(a_\theta(x)) \mathbb{1}[a_\theta(x) > \tau],$$
$$\gamma_{\text{oracle}}(x) = g^\star(x).$$
阈值化软规则在$\tau$以下默认关闭，之上渐变，在软门控对保持赋予小质量时改善保持保留。预言策略使用留出标签并仅作为诊断评估。算法1 (https://arxiv.org/html/2605.20262#alg1) 说明了推理过程；学得行和预言行仅在第3步不同。除非标记为预言行，否则控制器在评估时仅接收提示派生特征，无桶标签或拒绝标签。

**算法1** Residual Paving 推理
1: 提示 $x$，冻结模型 $M_0$，路由器 $r_\theta$，残差专家 $e_\theta$，门控策略 $\pi$，尺度 $s$，可选否决 $v_\phi$
2: 运行 $M_0$ 的早期层并收集边界特征 $z(x)$。
3: 计算门控对数$a_\theta(x)$和专家权重$w_\theta(x)$。
4: 使用策略 $\pi$ 设置标量门控 $\gamma_\pi(x)$（预言：$\gamma_\pi(x) \leftarrow g^\star(x)$）。
5: **如果** 辅助否决启用 **则**
6: 计算 $m_\phi(x)$ 并用 $m_\phi(x) \gamma_\pi(x)$ 替换 $\gamma_\pi(x)$。
7: **结束**
8: **对于** 每个干预层 $\ell \in \mathcal{L}_I$ 和生成步骤 $t$ **执行**
9: $\delta h_{\ell,t} \leftarrow s \gamma_\pi(x) \sum_{k=1}^{K} w_{\theta,k}(x) e_{\theta,k,\ell,t}(h_{\ell,t})$
10: **结束**
11: 使用带路由残差编辑的冻结模型解码。

### 3.3 训练：分阶段拟合分离能力与选择性
训练分四个阶段，将编辑能力问题（残差专家）与选择性问题（门控）分开。
(i) 门控预训练：将路由器拟合到编辑与保持的边界上，使用缓存的早期残差状态和加权二分类交叉熵（BCE）。
(ii) 对比预热：优化
$$\lambda_e \mathrm{CE}(y^{\bar{R}}, p_{\theta,\pi})_{x \in E} + \lambda_b \mathrm{KL}(p_0 \| p_{\theta,\pi})_{x \in B},$$
其中$y^{\bar{R}}$是反拒绝锚序列；这推动控制器在编辑上离开拒绝流形，同时保持良性行为接近基线。
(iii) 监督拟合：针对编辑目标锚点训练专家，使用式 (5) (https://arxiv.org/html/2605.20262#S3.E5) 中的保持保持损失。
(iv) 门控校准：冻结专家，从式 (3) (https://arxiv.org/html/2605.20262#S3.E3) 中选择可部署的规则。

紧凑的编辑损失和保持损失为：
$$\mathcal{L}_E = \lambda_{\mathrm{ce}} \mathrm{CE}(y^E, p_{\theta,\pi}) + \lambda_{\mathrm{kl}} \mathrm{KL}(p^E \| p_{\theta,\pi}) + \lambda_{\mathrm{traj}} \mathcal{T}(x;\theta,\pi) + \lambda_g \mathrm{BCE}(\sigma(a_\theta(x)), 1),$$
$$\mathcal{L}_C = \lambda_{\mathrm{pres}} \frac{1}{|C|} \sum_{x \in C} \frac{1}{T_x} \sum_{t=1}^{T_x} \mathrm{KL}\!\left(q^{(k)}_{0,t} \| q_{\theta,\pi,t}\right) + \lambda_g \mathrm{BCE}(\sigma(a_\theta(x)), 0), \quad C \in \{B,H\},$$
其中$y^E, p^E$是编辑目标续写和分布，$q^{(k)}_{0,t}$是步骤$t$的 top-$k$ 冻结基础分布，$\mathcal{T}$是轨迹对齐项（附录A.6 (https://arxiv.org/html/2605.20262#A1.SS6)）。难负例边界和专家回避惩罚未能弥合留出有害保持的差距。

### 3.4 预言路由诊断与辅助否决
对于任意指标$M$，定义预言路由间隙

Residual Paving：诊断选择性拒绝编辑中的路由瓶颈

相似文章

表征优先于路由：克服多时间尺度PPO中的代理劫持

重新思考扩散Transformer中的跨层信息路由

Mixtral MoE在良性及有害提示下的安全导向路由分析

𝐃𝐞𝐥𝐭𝐚 𝐀𝐭𝐭𝐞𝐧𝐭𝐢𝐨𝐧 𝐑𝐞𝐬𝐢𝐝𝐮𝐚𝐥𝐬 [R]

用于多重图可扩展路由的两阶段学习分解

提交意见反馈