修剪不安全票：一种资源高效的框架，用于更安全、更鲁棒的大型语言模型

arXiv cs.CL 2026/04/20 04:00 论文

摘要

本文介绍了一种资源高效的修剪框架，该框架能够识别并移除大型语言模型中与不安全行为相关的参数，同时保持模型的实用性。该方法利用无梯度归因和彩票假说视角，在最小化性能损失的前提下，显著减少了不安全内容的生成，并增强了对越狱攻击的鲁棒性。

arXiv:2604.15780v1 公告类型：交叉摘要：机器学习模型越来越多地部署于实际应用中，但即便是经过对齐的模型（如Mistral和LLaVA）仍会展现出从预训练中继承的不安全行为。当前的对齐方法（如SFT和RLHF）主要鼓励模型生成更优的响应，但并未明确移除触发有害输出的不安全子网络。在本工作中，我们引入了一种资源高效的修剪框架，该框架能够直接识别并移除与不安全行为相关的参数，同时保持模型效用。我们的方法采用无梯度归因机制，仅需适度的GPU资源，并且能够泛化到不同架构及量化变体上。对ML模型的实证评估表明，该方法在最小化效用损失的前提下，显著减少了不安全内容的生成，并增强了对越狱攻击的鲁棒性。从彩票假说的视角看，我们的结果表明ML模型中存在负责有害行为的“不安全票”，而修剪则揭示了能够维持性能同时对齐输出的“安全票”。这提供了一种轻量级、事后对齐的策略，适用于资源受限环境下的部署。

查看原文

查看缓存全文

缓存时间: 2026/04/20 08:30

# 裁剪不安全票券：一种资源高效且更安全、更稳健的大语言模型框架
来源：https://arxiv.org/html/2604.15780  
Wai Man Si, Mingjie Li♣\\\clubsuit, Michael Backes, Yang Zhang♣\\\clubsuit  
CISPA 亥姆霍兹信息安全中心  

###### 摘要  

机器学习模型越来越多地部署在现实世界的应用中，但即便是经过对齐的模型（如 Mistral 和 LLaVA）仍然会表现出从预训练继承而来的不安全行为。当前的 alignment 方法（如 SFT 和 RLHF）主要鼓励模型生成更受偏好的响应，但并未显式移除那些触发有害输出的不安全子网络。在这项工作中，我们引入了一种资源高效的裁剪框架，能够直接识别并移除与不安全行为相关的参数，同时保持模型效用。我们的方法采用了一种无梯度的归因机制，仅需适度的 GPU 资源，并且能够推广到不同架构及其量化变体。在机器学习模型上的实证评估显示，不安全输出显著减少，对越狱攻击的鲁棒性有所提升，且效用损失极小。从彩票假说（Lottery Ticket Hypothesis）的角度来看，我们的结果表明机器学习模型包含负责有害行为的“不安全票券”，而裁剪则揭示了既能维持性能又能对齐输出的“安全票券”。这提供了一种轻量级的后训练对齐策略，适用于资源受限环境下的部署。  
$\\clubsuit$$\\clubsuit$footnotetext:共同通讯作者。

参见图注  
图 1：针对安全性的后训练方法示意图。当给定不安全提示时，指令模型无法产生安全输出。电路突破（Circuit breaking）通过 LoRA 微调将不安全提示映射为随机输出，需要额外存储。我们的框架则选择性地移除指向不安全输出的连接，迫使模型将不安全提示重定向到安全响应。

## 引言  

机器学习（尤其是语言模型 LMs 和视觉语言模型 VLMs）的快速发展，使其得以集成到从生产力工具到移动助手等各类应用当中。虽然这些模型展现了令人印象深刻的能力，但从头训练它们代价高昂，需要大量的计算资源和数据集。因此，开发者越来越多地依赖开源的预训练模型，例如由 Mistral [JSMBCCBLLSLLSSLWLS23] 和 Meta [TLIMLLRGHARJGL23, TMSAABBBBBBBCCCEFFFFGGGHHHIKKKKKKLLLLLMMMMMNPRRSSSSSTTTWKXYZZFKNRSES23, DJPKALMSYFGHYMSKHRZRGSRBTCCNBMMKTWWFNASPLECMGPHLALDSRZSLANMPCNKXTZIKMECLGVPMSLBHLFCHLWYBSPRJSJAUPLHSa24] 发布的模型。虽然这些模型降低了准入门槛，但也引发了安全担忧，因为它们的行为可能偏离安全约束，或者仍然容易受到对抗攻击。

为缓解机器学习模型中的不安全行为，研究者提出了多种后训练方法。常见方法包括 SFT [OWJAWMZASRSHKMSAWCLL22] 和 RLHF [CLBMLA17]。这些方法虽然有效，但需要大量标注数据集、充足的 GPU 内存以及大量训练时间。此外，这些方法并未显式移除从预训练继承而来的不安全行为，这些行为常常在对抗性提示或分布偏移下重新浮现。更轻量级的替代方案，如内部模型干预 [LPVPW23, LBPWKM24, TTULMM23] 和提示工程 [ZYKMWH24]，减少了开销，但存在可扩展性差、需要人工投入以及推理效率低等问题。这些方法无法从模型内部本质性地移除不安全行为。总体而言，现有策略在实践中要么资源密集，要么脆弱易失效。

从彩票假说（LTH）[FC19] 的角度来看，我们认为负责不安全行为的子网络（即“不安全票券”）仍然嵌入在 aligned 模型之中。这些子网络可能在罕见但关键的情况下被激活，从而导致有害输出。为从根本上消除这些安全风险，我们提出直接识别并移除这些不安全子网络，从而揭示出一个“安全票券”，它在缓解不安全行为的同时保留了一般效用。

在本文中，我们提出了一种资源高效的裁剪框架用于安全对齐（图 1 (https://arxiv.org/html/2604.15780#S0.F1)）。我们的方法采用无梯度归因来定位对不安全输出贡献不成比例的参数，并迭代地裁剪它们，无需微调或提示工程。我们的裁剪框架能够缓解机器学习模型（包括 LMs 和 VLMs）中的不安全行为，同时保持整体性能。实证评估证明了其有效性。在 Mistral-7B-Instruct-v0.2 [JSMBCCBLLSLLSSLWLS23] 上，不安全响应的比例降至 1%；在 LLaVA-v1.6-Mistral-7B [LLLL23] 上，降至 2%，且一般性能的退化可以忽略不计。这些改进仅通过 455 秒的裁剪（使用贪婪搜索策略）便得以实现。除安全性外，该框架还提升了鲁棒性，降低了多种攻击的成功率。这些结果凸显了该框架作为轻量级后训练机制，在增强机器学习模型对抗现实世界威胁方面的实用性。

为更好地理解这些改进，我们发现裁剪并未损害模型识别不安全输入的能力，而是重新平衡了输出分布，降低了不安全补全的可能性，同时增加了拒绝响应的频率。此外，这些行为主要定位在输出投影层和第二 MLP 块，这与先前的研究发现一致 [LPVPW23, LBPWKM24]。我们的主要贡献如下：

- • 我们提出了一种资源高效、与模型无关的裁剪框架，用于在资源受限环境下提升安全性和鲁棒性。
- • 我们引入了一个新视角，将基于裁剪的安全对齐与 LTH 联系起来，证明模型包含“不安全票券”，移除它们即可揭示保留安全性的子网络。
- • 我们对 LMs 和 VLMs 进行了广泛评估，展示了在低计算成本下显著减少不安全输出并提升鲁棒性的效果。

参见图注  
图 2：裁剪框架流程概览。

## 方法论  

基于 LTH 及其扩展 [CIJLTZ23, DK21, MYPT19]，我们假设预训练过程中遭遇的不安全行为可能作为稀疏子网络保留在模型内部，我们称之为“不安全票券”。当这些子网络被重新激活时，它们可能导致已对齐的 LLM 表现出不安全行为。为缓解这些潜在风险，我们提出了一种资源高效的裁剪框架，用于迭代识别并移除这些子网络。如图 2 (https://arxiv.org/html/2604.15780#S1.F2) 所示，该框架包含四个阶段，具体如下。

### 阶段 1：行为刻画  

框架的第一阶段构建一个特定于模型的行为数据集，以确保裁剪决策与目标模型的实际失效情况对齐。与使用通用数据集更新模型参数的微调不同，我们的目标是裁剪导致不安全输出的连接，这需要能够直接激活这些连接的数据。然而，公开的安全数据集往往无法对齐目标模型的行为。例如，数据集中标记为不安全的提示可能不会引发模型的不安全响应，从而使其在识别相关参数时无效。为解决此问题，我们通过用多样化提示查询模型，生成两个定制数据集，一个针对不安全行为，一个针对安全行为。每个提示-响应对使用外部安全分类器自动标注。¹ 为了提高标注精度并减少假阳性，我们使用附录 B.6 (https://arxiv.org/html/2604.15780#A2.SS6) 中的拒绝指标检查标签。为增加多样性并最小化冗余，我们对每组内的响应进行聚类，并采样 \(K\) 个代表性对，生成反映模型风险面的紧凑数据集。最后，为避免因响应长度变化导致的裁剪质量退化（参见附录 A (https://arxiv.org/html/2604.15780#A1)），我们在数据收集过程中强制设置固定的响应长度 \(l\)。

### 阶段 2：归因分析  

第二阶段量化模型参数对不安全和安全输出的贡献。精确的归因能够识别哪些参数可以被裁剪以减少不安全行为，同时保持效用。传统的归因方法，如补丁归因 [SRC23]、基于梯度的技术 [LAT19] 和线性探针 [LPVPW23, LBPWKM24]，虽然有效，但需要多次前向/后向传播，这使得它们不适用于大型模型或资源受限环境。为解决此问题，我们采用并扩展了 Wanda [SLBK24]，一种最初设计用于移除冗余参数的非结构化剪枝方法。我们将 Wanda 重新解释为一种参数归因工具，能够在无需反向传播的情况下高效估计每个参数对安全和生成的影响。

令 \(W \in \mathbb{R}^{C_{\text{out}} \times C_{\text{in}}}\) 为 Transformer 线性层（例如注意力层）的权重矩阵，令 \(X \in \mathbb{R}^{L \times C_{\text{in}}}\) 为对应的输入激活矩阵，其中 \(L = A + B\)，\(A\) 表示提示令牌数，\(B\) 表示响应令牌数。原始 Wanda 剪枝定义为 \(S = |W| \cdot \sum_{i=1}^{L} \|x_i\|_2\)，其中 \(\|x_i\|_2\) 是 \(X\) 第 \(i\) 行的 L2 范数。注意，原始 Wanda 得分平等对待提示令牌和响应令牌。为隔离响应相关的激活（因为不安全行为仅在生成阶段出现），我们引入一个二元掩码 \(M \in \{0,1\}\)，定义为 \(M_{:A} = 0, M_{A+1:A+B} = 1\)。因此我们修改后的 Wanda 得分仅考虑响应的激活幅度：  
\(S' = M_i |W| \cdot \sum_{i=1}^{L} \|x_i\|_2 = |W| \cdot \sum_{i=A+1}^{A+B} \|x_i\|_2\)  
这样，\(S'\) 完全排除了提示激活，仅反映响应上下文下的重要性。

### 阶段 3：组件评分  

在归因分析之后，我们计算每个模型组件的归一化重要性分数，以指导不安全感知的剪枝决策。目标是识别一个组件内对不安全输出贡献最大的前 \(p\%\) 参数，同时最小化对安全生成的影响。这种对比机制是我们框架的核心，能够在不损害良性能力的情况下抑制不安全行为。  
我们首先在不安全子集和安全子集上计算掩码归因分数，记为 \(S'_u\) 和 \(S'_s\)。然后定义对比重要性分数 \(I\)：  
\(I = \frac{S'_u}{S'_s + \epsilon}\)，其中 \(\epsilon\) 是一个用于数值稳定的小常数。  
由于原始重要性分数因统计变异性而无法直接跨层和组件比较，我们在每个组件内应用 z-score 归一化以获得归一化分数 \(\hat{I}\)。这种归一化确保了各组件间的一致性优先级排序。最后，我们选择每个组件内前 \(p\%\) 的参数，并将其值求和以计算最终重要性分数 \(\hat{I'}\)。更高的 \(\hat{I'}\) 表明对应组件的参数在不安全生成期间相对安全生成而言活跃得不成比例。这些分数使得细粒度的裁剪决策能够有效针对不安全行为，同时保持整体模型性能。

### 阶段 4：迭代裁剪  

在最后阶段，我们采用迭代裁剪策略来逐步优化模型行为，而不是以固定比例一次性裁剪所有组件。这种设计基于两个观察：Transformer 组件对不安全输出的贡献不均匀，因此不加区分地裁剪可能损害效用；某些组件对不安全行为影响更强，应被更激进地裁剪。迭代裁剪因此允许自适应且精确地缓解不安全行为。从 LTH 的角度来看，这种迭代搜索过程可以视为逐步移除不安全子网络，直到出现一个保持安全性的子网络。  
我们探索了两种策略：  
贪婪裁剪。这是一种高效的方法，每次迭代裁剪归一化重要性分数最高的组件。虽然计算代价低，但此方法可能不是最优的，因为它忽略了组件间的非线性相互依赖关系。  
束搜索裁剪。相比之下，束搜索能够通过每次迭代评估多个候选序列来更有效地探索裁剪轨迹。束搜索首先计算初始重要性分数，并选择前 \(b_1\) 个候选来初始化束。每个候选裁剪其参数的 \(p\%\)，产生 \(b_1\) 个初始模型变体。对于每个变体，我们根据其裁剪历史重建模型状态，重新计算组件重要性分数，并通过生成最多 \(b_1 \times b_1\) 个新变体来扩展搜索。然后使用对比目标评估每个候选：  
\(\mathcal{L} = \mathrm{CELoss}_s - \mathrm{CELoss}_u\)，  
其中 \(\mathrm{CELoss}_s\) 和 \(\mathrm{CELoss}_u\) 分别是安全验证集和不安全验证集上的交叉熵损失。该目标倾向于在安全数据上保持性能、同时在不安全数据上性能下降的变体。保留具有最高 \(\mathcal{L}\) 分数的前 \(b_2\) 个候选进入下一个束，过程在累积稀疏度超过裁剪阈值 \(\rho\) 时终止。  
这种基于搜索的裁剪框架能够发现抑制不安全行为的有效轨迹。贪婪裁剪提供了一种快速的启发式解决方案，而束搜索则允许更深入地探索裁剪空间，产生更安全、更鲁棒的模型，但计算成本更高。

表 1：不同后训练方法在 Mistral-7B 上的性能。基线包括 DPO、CB 和 Goal，而 One-Pass、Greedy 和 Beam 代表我们的裁剪框架。

表 2：不同后训练方法在 Mistral-Nemo 和 Mistral-Small 上的性能，包括不安全率（Unsafe）、过度拒绝率（Over-Refusal）和效用（Utility）。

## 实验  

### 语言模型  

模型与数据集。我们在来自 HuggingFace Hub 的三个指令微调 LM 上评估我们的裁剪框架：“Mistral-7B-Instruct-v0.2”、“Mistral-Nemo-Instruct-2407”（12B）和“Mistral-Small-Instruct-2409”（23B）。² 我们还包含了 Mistral-7B 的一个 8-bit 量化变体。所有模型均使用默认解码配置（例如采样温度 1.0）进行评估，每个输出采样三次以减少方差。  
为评估模型安全性，我们使用 HarmBench [MPYZWMSLBLFH24]，它融合了 AdvBench [ZWKF23] 和 TDC 2023。我们使用 JailbreakBench (JBB) [CDRACSDFPTHW24] 评估过度拒绝，使用 MT-Bench [ZCSZWZLLLXZGS23] 评估模型效用。详细的评估指标见附录 B.2 (https://arxiv.org/html/2604.15780#A2.SS2)。我们还报告了数据集中泄露的研究，见附录

修剪不安全票：一种资源高效的框架，用于更安全、更鲁棒的大型语言模型

相似文章

小型LLM：剪枝与从头训练

通过令牌剪枝优化韩语中心的大语言模型

基于不同微调策略和模型规模的LLM归因分析在自动代码合规性检查中的应用

知道何时放弃：通过多阶段飞行中拒绝实现令牌高效的LLM合成数据生成

别让我的LLM崩溃：注意力层剪枝对解释忠实性与置信度校准的影响

提交意见反馈