专家感知的拒绝引导

arXiv cs.CL 2026/06/04 04:00 论文

摘要

本文将拒绝引导（基于激活的越狱方法）扩展至混合专家（MoE）大语言模型，发现 MoE 的路由模式并不会阻碍引导效果，并提出了专家感知方法，可基于单个专家的输出来抑制拒绝行为。

arXiv:2606.04160v1 公告类型：新论文 **摘要：** 指令微调大语言模型（LLM）的安全对齐依赖于模型可靠拒绝有害或违规请求的能力。近期研究表明，在推理阶段向稠密 LLM 施加引导向量，可有效抑制其拒绝行为，从而诱使模型响应有害请求。我们将这一拒绝引导方法扩展至三个开源混合专家（MoE）大语言模型，发现 MoE 架构固有的复杂路由模式并不会削弱引导效果。在此基础上，我们进一步提出两种专家感知拒绝引导方法，分别利用针对拒绝行为的专家路由模式和特定专家的引导方向，来抑制正常的拒绝行为。实验结果表明，仅依据单个专家的输出即可有效实现拒绝行为的引导。此外，我们的结果显示，引导方法所捕获的拒绝信号与专家路由行为存在差异，表明注意力机制在 MoE 模型的拒绝行为中扮演着重要角色。

查看原文

查看缓存全文

缓存时间: 2026/06/05 02:12

# 专家感知的拒绝引导
来源：https://arxiv.org/html/2606.04160
Anna C\. Marbut 蒙大拿大学跨学科研究系 美国蒙大拿州米苏拉 anna\.marbut@umontana\.edu &Travis J\. Wheeler 亚利桑那大学药学实践与科学系 美国亚利桑那州图森 twheeler@arizona\.edu &Daniel R\. Olson 欧洲分子生物学实验室欧洲生物信息学研究所 英国剑桥郡欣克斯顿威康基因组园区 olson@ebi\.ac\.uk

###### 摘要

指令微调大语言模型（LLM）的安全对齐依赖于模型可靠地拒绝有害或不被允许请求的能力。近期研究表明，可以在推理阶段对稠密 LLM 施加一个引导向量，从而有效抑制拒绝行为，使其对有害请求做出回应。我们将这一拒绝引导方法扩展至三个开源混合专家（MoE）LLM，发现 MoE 架构固有的复杂路由模式并不妨碍引导效果。我们随后提出两种专家感知的拒绝引导方法，利用拒绝特定的专家路由模式和专家特定的引导方向来抑制正常的拒绝行为。研究发现，仅基于单个专家的输出即可有效引导拒绝行为。实验结果表明，引导方法所捕获的拒绝信号与专家路由行为存在差异，这说明注意力机制在 MoE 拒绝行为中扮演着重要角色。

## 1 引言

指令微调（即面向对话的）生成式 LLM 的开发者，如 ChatGPT、Gemini 和 Claude\(Achiamet al\.,2023 (https://arxiv.org/html/2606.04160#bib.bib25); Teamet al\.,2024 (https://arxiv.org/html/2606.04160#bib.bib28); Templetonet al\.,2024 (https://arxiv.org/html/2606.04160#bib.bib27)\)，必须确保这些模型能够可靠地拒绝"有害"用户提示，例如那些要求给出有害、危险或违法内容的请求。通常，前沿模型会经历严格的训练后对齐流程，在该流程中模型会被直接训练以实现安全对齐及其他对话相关行为\(Agarwalet al\.,2025 (https://arxiv.org/html/2606.04160#bib.bib7)\)。尽管如此，研究可能破坏安全对齐的脆弱性仍然至关重要。

在指令微调 LLM 的语境下，"越狱"指任何导致原本对齐良好的模型产生有害或有毒输出的干预行为\(Chaoet al\.,2024 (https://arxiv.org/html/2606.04160#bib.bib35)\)。所谓"黑盒"越狱方法无需访问模型权重或残差流即可实施\(Jianget al\.,2024b (https://arxiv.org/html/2606.04160#bib.bib15); Zhouet al\.,2024 (https://arxiv.org/html/2606.04160#bib.bib17);Liet al\., (https://arxiv.org/html/2606.04160#bib.bib16)\)，而"白盒"越狱方法则需要访问模型内部，以进行基于梯度的操作或直接修改\(Ebrahimiet al\.,2018 (https://arxiv.org/html/2606.04160#bib.bib39); Zouet al\.,2023 (https://arxiv.org/html/2606.04160#bib.bib38); Jennyet al\.,2026 (https://arxiv.org/html/2606.04160#bib.bib40)\)。尽管白盒方法对于前沿 LLM 的潜在恶意行为者而言并非立即可用，但它们能够提供对这些模型拒绝机制的有益洞察，从而有助于通过训练后处理或架构改进来提升安全鲁棒性。

向量加法激活引导（ActAdd）最初被提出用于引导 LLM 的主题行为\(Turneret al\.,2023 (https://arxiv.org/html/2606.04160#bib.bib5)\)。Arditiet al\.\(2024 (https://arxiv.org/html/2606.04160#bib.bib4)\)将该方法扩展至拒绝行为，从而形成一种白盒越狱方法，在其实验中对大多数模型实现了 \>75% 的攻击成功率（ASR）。尽管这是一个引人注目的结果，但其实验仅限于稠密架构的 LLM，而当今大多数最先进（SOTA）模型已采用 MoE 架构\(Achiamet al\.,2023 (https://arxiv.org/html/2606.04160#bib.bib25); Teamet al\.,2024 (https://arxiv.org/html/2606.04160#bib.bib28); Templetonet al\.,2024 (https://arxiv.org/html/2606.04160#bib.bib27)\)。虽然有研究进一步探索了 ActAdd 拒绝引导方法在稠密模型上的应用\(Marshallet al\.,2024 (https://arxiv.org/html/2606.04160#bib.bib8); Siuet al\.,2025 (https://arxiv.org/html/2606.04160#bib.bib6)\)，但据我们所知，该方法尚未被应用于 MoE 模型的研究。

在大多数 MoE LLM 中，传统稠密 LLM 层末尾的单一前馈子层被一组"专家"前馈网络（FFN）所取代，如图1 (https://arxiv.org/html/2606.04160#S1.F1)所示。专家路由器经过训练，为每个输入 token 从这些专家中选择一个子集来处理该 token 的表示，并将各专家输出加权求和，本质上是为模型处理的每个 token 动态改变模型权重。

MoE 架构的一个潜在优势在于，各专家可以在指令微调或领域特定微调过程中实现"专业化"，从而使模型在下游任务上表现更优\(Loet al\.,2025 (https://arxiv.org/html/2606.04160#bib.bib18)\)。尽管这一点在 MoE 探测研究中并非总能得到印证\(Jianget al\.,2024a (https://arxiv.org/html/2606.04160#bib.bib22)\)，但也有一些结果支持这一假设。Muennighoffet al\.\(2024 (https://arxiv.org/html/2606.04160#bib.bib12)\)和Xueet al\.\(2024 (https://arxiv.org/html/2606.04160#bib.bib14)\)表明，特定领域的 token 和不同语言的 token 倾向于通过特定专家路由；Olsonet al\.\(2025 (https://arxiv.org/html/2606.04160#bib.bib13)\)则证明，具有相同语义（词义）的 token 比具有不同词义的 token 更可能经由相同的专家路由。类似地，Chenet al\.\(2022 (https://arxiv.org/html/2606.04160#bib.bib9)\)表明专家在聚类分类任务上倾向于专业化，Luet al\.\(2024 (https://arxiv.org/html/2606.04160#bib.bib10)\)则表明基于领域特定专家路由对模型进行剪枝和微调可以提升下游领域任务的性能。

最近，这一概念被扩展应用于探索 MoE 安全对齐行为。与上述领域特定研究类似，某些专家在处理"有害"提示时比处理良性提示时被更频繁地选中，并且这种专家路由模式可以在一定程度上通过推理阶段强制启用或抑制特定专家来控制模型行为\(Fayyazet al\.,2025 (https://arxiv.org/html/2606.04160#bib.bib1); Laiet al\.,2025 (https://arxiv.org/html/2606.04160#bib.bib2); Dahlkeet al\.,2025 (https://arxiv.org/html/2606.04160#bib.bib3)\)。尽管这些方法取得了一定的越狱效果（在大多数模型、数据集和方法上 ASR 为 20-40%），但仅基于专家选择来引导模型仍然为模型恢复其对齐训练留下了较大空间。

### 我们的贡献

我们对 MoE 安全行为和拒绝引导研究的贡献如下：

- •我们将 ActAdd 拒绝引导方法\(Arditiet al\.,2024 (https://arxiv.org/html/2606.04160#bib.bib4)\)应用于三个开源 MoE 模型（GPT\-OSS 20B、Mixtral8x7B Instruct、OLMoE 1B\-7B Instruct），在三种系统提示设置下，所有模型和系统提示的 ASR 达到 65-95%。
- •我们提出两种专家感知的拒绝引导方法，在 MoE 前馈子层内生成并应用引导干预。基于单个专家输出的拒绝引导平均可恢复 ActAdd ASR 的 66%，表明单个专家携带了大量的拒绝信号。
- •我们表明，方向性引导向量与专家路由统计信息捕获的拒绝信号并不相同，并发现基于路由的"安全专家"的存在对有效拒绝引导方向不具有预测性。
- •我们发现，对系统提示更为敏感的模型对专家感知引导方法的脆弱性更低，这表明在存在安全相关系统提示的情况下，注意力机制可能对拒绝行为承担更大比重的作用。

参见图注

图 1：包含 ActAdd 和专家感知拒绝引导干预相对位置的 MoE Transformer 层示例。

## 2 预备知识

### 2\.1 ActAdd 拒绝引导

Arditiet al\.\(2024 (https://arxiv.org/html/2606.04160#bib.bib4)\)表明，LLM 中的拒绝行为由残差流潜在空间中的一致方向所介导。通过计算有害提示与无害提示之间的均值激活差，可以去除无害成分，从而分离出有害输入所特有的方向，进而捕获拒绝行为的方向。在推理时从残差流中减去该方向，可以可靠地在多种输入下抑制拒绝行为。

以yl,tiy\_\{\\ell,t\_\{i\}\}为第l\\ell层和位置ii处 token titi的输出111我们依赖https://github.com/andyrdt/refusal_direction上的现有代码进行实现，并做了少量代码修改以将其扩展至我们的模型。在代码中，拒绝引导干预位于每个第l\+1\\ell\+1层的输入处。为了与第3\.2节 (https://arxiv.org/html/2606.04160#S3.SS2)中专家特定干预的描述保持一致，我们将其表述为等价的第l\\ell层输出处的干预。，引导向量vl,iv\_\{\\ell,i\}被计算为有害与无害数据集在残差流激活上的均值差μl,i\(D\)\\mu\_\{\\ell,i\}\(\\mathcal\{D\}\)。令Dhf\\mathcal\{D\}\_\{hf\}为有害集合，Dhl\\mathcal\{D\}\_\{hl\}为无害集合，D\\mathcal\{D\}泛指Dhf\\mathcal\{D\}\_\{hf\}或Dhl\\mathcal\{D\}\_\{hl\}中的任意一个。

μl,i\(D\)\\displaystyle\\mu\_\{\\ell,i\}\(\\mathcal\{D\}\)=1\|D\|∑ti∈Dyl,ti\\displaystyle=\\frac\{1\}\{\|\\mathcal\{D\}\|\}\\sum\_\{t\_\{i\}\\in\\mathcal\{D\}\}y\_\{\\ell,t\_\{i\}\}\(1\)vl,i\\displaystyle v\_\{\\ell,i\}=μl,i\(Dhf\)−μl,i\(Dhl\)\\displaystyle=\\mu\_\{\\ell,i\}\(\\mathcal\{D\}\_\{\\mathrm\{hf\}\}\)\-\\mu\_\{\\ell,i\}\(\\mathcal\{D\}\_\{\\mathrm\{hl\}\}\)\(2\)

引导向量vl,iv\_\{\\ell,i\}随后在所有输入 token 上从第l\\ell层的残差流中减去，以抑制模型的拒绝行为并诱导其对有害提示做出回应。

为了从所有层和 token 位置组合中选出最优引导向量，ActAdd 流程对每个候选引导向量进行应用，并从所得的下一个 token 分布中计算两个指标。以QQ和Q′Q^\{\\prime\}分别为引导前和引导后在词表V\\mathcal\{V\}上的分布，qt′q^\{\\prime\}\_\{t\}为 token tt在Q′Q^\{\\prime\}下的概率，这两个选择指标定义如下：

1. 1\. "拒绝分数"rsrs，基于一小组常见拒绝 token R⊂V\\mathcal\{R\}\\subset\\mathcal\{V\}近似估计模型生成拒绝内容的对数几率：rs\\displaystyle rs=log⁡\(∑t∈Rqt′\)−log⁡\(∑t∈V∖Rqt′\)\\displaystyle=\\log\(\\sum\_\{t\\in\\mathcal\{R\}\}q^\{\\prime\}\_\{t\}\)\-\\log\(\\sum\_\{t\\in\\mathcal\{V\}\\setminus\\mathcal\{R\}\}q^\{\\prime\}\_\{t\}\)\(3\)
2. 2\. KL 散度分数klkl，近似估计模型引导后的连贯性：kl\\displaystyle kl=KL\(Q,Q′\)\\displaystyle=KL\(Q,Q^\{\\prime\}\)\(4\)

### 2\.2 混合专家架构

Transformer MoE 架构已被 Transformer 架构的 LLM 广泛采用，包括大多数 SOTA 前沿及开源模型\(Achiamet al\.,2023 (https://arxiv.org/html/2606.04160#bib.bib25); Templetonet al\.,2024 (https://arxiv.org/html/2606.04160#bib.bib27); Teamet al\.,2024 (https://arxiv.org/html/2606.04160#bib.bib28); Jianget al\.,2024a (https://arxiv.org/html/2606.04160#bib.bib22); Daiet al\.,2024 (https://arxiv.org/html/2606.04160#bib.bib23); Muennighoffet al\.,2024 (https://arxiv.org/html/2606.04160#bib.bib12); Agarwalet al\.,2025 (https://arxiv.org/html/2606.04160#bib.bib7)\)。尽管具体实现因模型系列和版本而异，LLM 中基本的 MoE 机制由一组专家 FFN 组成，如图1 (https://arxiv.org/html/2606.04160#S1.F1)所示，取代了传统稠密模型的单一前馈子层。这些专家 FFN 前设有路由机制，用于决定每个输入 token 中各专家对残差流的贡献程度。

设xl,t∈Rdx\_\{\\ell,t\}\\in\\mathbb\{R\}^\{d\}为第l\\ell层进入前馈子层的 token tt的残差流，路由器Ψl\\Psi\_\{\\ell\}产生一个关于所有专家e∈Ele\\in E\_\{\\ell\}的路由 logit 向量rl,t∈R\|El\|\\textbf\{r\}\_\{\\ell,t\}\\in\\mathbb\{R\}^\{\|E\_\{\\ell\}\|\}以及对应的路由概率pl,t∈R\|El\|\\textbf\{p\}\_\{\\ell,t\}\\in\\mathbb\{R\}^\{\|E\_\{\\ell\}\|\}，其中每个元素pe,t∈pl,tp\_\{e,t\}\\in\\textbf\{p\}\_\{\\ell,t\}表示专家ee的路由概率。

rl,t\\displaystyle\\textbf\{r\}\_\{\\ell,t\}=Ψlxl,t\\displaystyle=\\Psi\_\{\\ell\}x\_\{\\ell,t\}\(5\)pl,t\\displaystyle\\textbf\{p\}\_\{\\ell,t\}=softmax\(rl,t\)\\displaystyle=\\mathrm\{softmax\}\(\\textbf\{r\}\_\{\\ell,t\}\)\(6\)

在每一层，路由器根据pl,t\\textbf\{p\}\_\{\\ell,t\}从ElE\_\{\\ell\}中选择 top-k 个专家。MoE 前馈输出yl,ty\_\{\\ell,t\}是被选中专家输出的加权求和，每个专家以其路由概率pe,tp\_\{e,t\}为权重。

yl,t\\displaystyle y\_\{\\ell,t\}=∑e∈top\-kpe,tFFNe\(xl,t\)\\displaystyle=\\sum\_\{e\\in\\text\{top\-k\}\}p\_\{e,t\}\\text\{FFN\}\_\{e\}\(x\_\{\\ell,t\}\)\(7\)

## 3 方法

生成 ActAdd 引导向量vl,iv\_\{\\ell,i\}的方法（公式2 (https://arxiv.org/html/2606.04160#S2.E2)）假设层输出具有相对一致性，从而均值差向量可以跨 token 和上下文应用以引导模型的回应行为。然而，若只有少数专家负责拒绝行为，我们质疑聚合引导向量中的信号是否过于分散，以致无法有效转化为行为变化，这促使我们探索此处所提出的专家感知引导方法。

我们在三个开源 MoE 模型上评估这些方法：GPT\-OSS 20B\(Agarwalet al\.,2025 (https://arxiv.org/html/2606.04160#bib.bib7)\)、Mixtral8x7B Instruct\(Jianget al\.,2024a (https://arxiv.org/html/2606.04160#bib.bib22)\)和 OLMoE 1B\-7B Instruct\(Muennighoffet al\.,2024 (https://arxiv.org/html/2606.04160#bib.bib12)\)，模型架构细节见表A1 (https://arxiv.org/html/2606.04160#A1.T1)。由于系统提示（预置于每条用户提示之前的指令，通常包含明确的安全指南）是一种常见的推理阶段对齐机制，我们在三种系统提示设置下测试每个模型：无提示、短拒绝指令（轻量级）以及包含基本安全指南的更完整对话导向提示（llama\-2）。系统提示的完整文本见附录B\.1 (https://arxiv.org/html/2606.04160#A2.SS1)。

对于每个模型和提示设置，我们首先在有害和无害提示数据集上收集专家路由模式，以确认并分析"安全专家"的存在。接下来，我们介绍两种222附录D\.4 (https://arxiv.org/html/2606.04160#A4.SS4)详细介绍了我们简要探索过的第三种方法，该方法结合应用多个专家特定的引导方向。专家感知拒绝引导方法：单专家引导

专家感知的拒绝引导

相似文章

超越单一方向：思维链破坏简单的拒绝引导

受控LLM激活的非满射性

我构建了LEMoE：一个用于本地LLM的无状态、轻量级专家混合（MoE）路由器。开源，欢迎反馈！

dMoE: 具有可学习块专家的扩散大语言模型

保持专注：通过键正交投影实现激活转向

提交意见反馈