开源安全防护模型基准测试：全面评估

arXiv cs.CL 2026/05/29 04:00 论文

benchmarking safety-guard-models open-source llm-safety evaluation content-moderation

摘要

本文对14个开源安全防护模型进行了全面评估，在包含79331个样本的精选基准数据集上覆盖了NIST的8个安全类别，发现模型大小与检测性能无关，且Qwen Guard（4B）取得了最高的召回率。

arXiv:2605.28830v1 公告类型：新发布摘要：随着大语言模型（LLM）越来越多地部署于安全关键型应用，稳健的内容审核变得至关重要。我们对14个开源安全防护模型进行了全面评估，在包含79331个样本的精选基准数据集上覆盖了NIST AI风险框架的8个安全类别。我们的基准测试整合了四个不同的数据集（HarmBench、StrongREJECT、RealToxicityPrompts和BeaverTails），并经过筛选，仅关注安全相关内容（暴力、仇恨言论、骚扰、色情内容、自杀/自残、污言秽语、威胁和健康虚假信息）。我们发现召回率是安全应用的关键指标，因为漏检有害内容比误报风险更大。我们的评估揭示了令人惊讶的结果：Qwen Guard（4B参数）取得了最高的召回率（83.97%），而Llama Guard（12B）和GPT-OSS Safeguard（20B）等较大模型表现保守，最多漏检75%的不安全内容。我们证明了模型大小与安全检测性能无关，并且通用防护模型优于专用模型。这些发现为在生产部署中选择安全防护模型提供了实用指导。

查看原文

查看缓存全文

缓存时间: 2026/05/29 09:11

# 全面评估
发表于 ICLR 2026 研讨会
来源：https://arxiv.org/html/2605.28830
## 开源安全护栏模型的基准测试：全面评估††感谢：发表于 ICLR 2026 研讨会

###### 摘要

随着大型语言模型 (LLMs) 在安全关键型应用中的部署日益增多，稳健的内容审核变得至关重要。我们对 14 个开源安全护栏模型进行了全面评估，评估基准包含 79,331 个样本，涵盖 NIST AI 风险框架的 8 个安全类别。我们的基准整合了四个不同的数据集（HarmBench、StrongREJECT、RealToxicityPrompts 和 BeaverTails），并经过筛选，仅关注安全相关内容（暴力、仇恨言论、骚扰、色情内容、自杀/自残、亵渎、威胁和健康错误信息）。我们发现，**召回率是安全应用的关键指标**，因为遗漏有害内容比误报安全内容风险更大。我们的评估揭示了令人惊讶的结果：Qwen Guard（4B 参数）实现了最高的召回率（83.97%），而 Llama Guard（12B）和 GPT-OSS Safeguard（20B）等更大模型则表现出保守行为，遗漏了高达 75% 的不安全内容。我们证明，模型大小与安全检测性能并不相关，通用护栏模型优于专用模型。这些发现为在生产部署中选择安全护栏模型提供了实用指导。

## 1. 引言

大型语言模型 (LLMs) 在各种应用中的快速普及带来了显著的安全问题，需要严格的内容审核。安全护栏模型已成为 LLM 部署流程中的关键组件，作为过滤器，将输入提示或模型输出分类为安全或不安全。然而，护栏模型的激增——每个模型都有不同的架构、训练方法和安全分类法——给实践者为他们的应用选择合适的防护措施带来了不确定性。

尽管护栏模型至关重要，但目前尚不存在一个全面的基准，能够使用标准化的分类法，评估跨不同、以安全为中心的数据集的现代开源安全模型。

### 1.1 研究问题

本研究旨在回答三个主要研究问题：

1.  **RQ1**：现有的开源护栏模型在跨不同数据集和危害类别进行安全检测时表现如何？
2.  **RQ2**：模型大小、架构与安全检测性能之间存在何种关系？
3.  **RQ3**：哪些评估指标最能反映护栏模型在安全关键部署中的有效性？

### 1.2 贡献

我们的贡献包括：(1) 一个包含来自四个公开来源的 79,331 个样本的全面基准，使用 NIST AI 风险管理框架（National Institute of Standards and Technology, 2023 (https://arxiv.org/html/2605.28830#bib.bib5)）进行筛选，专注于 8 个安全子类别；(2) 对来自 Google、NVIDIA、IBM、Meta 和阿里巴巴的 14 个开源护栏模型（110M–20B 参数）进行了大规模评估；(3) 指标分析表明，召回率是主要指标，高精确率模型可能危险地保守；(4) 提供了可操作的模型选择建议。

## 2. 相关工作

### 2.1 护栏模型

安全护栏模型已经从简单的基于关键词的过滤器发展为基于 LLM 的复杂分类器。Llama Guard（Meta AI, 2025 (https://arxiv.org/html/2605.28830#bib.bib17)）引入了基于分类法的驱动方法，使用指令调优模型进行输入-输出防护。WildGuard（Han et al., 2024 (https://arxiv.org/html/2605.28830#bib.bib8)）将其扩展到处理提示和响应分类，覆盖范围更广。最近，来自不同组织的模型纷纷涌现：来自 IBM 的 Granite Guardian（Padhi et al., 2024 (https://arxiv.org/html/2605.28830#bib.bib10)）、来自阿里巴巴的 Qwen Guard（Zhao et al., 2025 (https://arxiv.org/html/2605.28830#bib.bib6)）和来自 Google 的 ShieldGemma（Google DeepMind, 2024 (https://arxiv.org/html/2605.28830#bib.bib16)），它们各有不同的安全分类法和架构选择。

### 2.2 安全基准

随着大型语言模型变得更加强大并广泛部署，确保其输出的安全性至关重要。为了降低风险，诸如 Llama Guard、ShieldGemma、WildGuard 和 Qwen Guard 等护栏模型被用作过滤机制，对用户提示和模型响应进行实时风险检测，确保 AI 系统中更安全的交互。

现有的安全基准主要针对通用 LLM。SafetyBench（Zhang et al., 2024 (https://arxiv.org/html/2605.28830#bib.bib21)）提供了 11,435 道选择题，以测试 LLM 是否选择安全响应。HELM（Liang et al., 2023 (https://arxiv.org/html/2605.28830#bib.bib22)）从包括安全性在内的多个维度全面评估 LLM。RabakBench（Chua et al., 2025 (https://arxiv.org/html/2605.28830#bib.bib23)）为低资源语言构建了本地化的多语言安全基准。这些基准评估的是 LLM 的生成行为，而非护栏模型的有效性。

对于护栏模型评估，GuardBench（Bassani and Sanchez, 2024 (https://arxiv.org/html/2605.28830#bib.bib20)）引入了一个包含 40 个数据集的基准，并评估了 13 个模型。然而，他们评估的模型主要是 Llama Guard 变体和内容审核模型（Detoxify、ToxiGen），并且他们承认缺乏“普遍接受的不安全内容分类法”，导致结果在数据集间分散，没有统一的分类。

我们的工作专注于评估护栏模型，并填补了这些空白：(1) 我们评估了来自不同供应商（Google、NVIDIA、IBM、Meta、阿里巴巴）的 14 个模型，包括近期 2025 年的模型（Qwen Guard、GPT-OSS Safeguard、DynaGuard、GuardReasoner、Llama Guard 4）；(2) 我们采用了 NIST AI 风险管理框架（National Institute of Standards and Technology, 2023 (https://arxiv.org/html/2605.28830#bib.bib5)）进行标准化分类，涵盖 8 个安全子类别；(3) 我们提供了类别级别的分析，揭示了哪些安全类别对当前的护栏模型仍然具有挑战性。

## 3. 方法论

### 3.1 数据集构建

我们通过根据 NIST AI 风险管理框架聚合和筛选四个公开来源，构建了一个主安全数据集。

##### NIST AI 风险框架。

NIST AI RMF 定义了 7 个风险类别：SAFETY（安全）、SECURITY（安保）、ACCOUNTABILITY（问责）、PRIVACY（隐私）、FAIRNESS（公平）、TRANSPARENCY（透明）和 UNCERTAINTY（不确定性）。我们的基准专门关注 **SAFETY**，以确保评估针对特定安全检测，而不是将安全性（safety）与安保（security）或隐私混淆。在 SAFETY 中，我们定义了 8 个子类别：(1) 暴力、(2) 仇恨言论、(3) 自杀与自残、(4) 色情内容、(5) 骚扰、(6) 亵渎、(7) 威胁、(8) 健康错误信息。

##### 源数据集。

- **HarmBench**（Mazeika et al., 2024 (https://arxiv.org/html/2605.28830#bib.bib4)）：400 个文本行为，用于测试模型鲁棒性。在筛选掉版权（100 个）、网络犯罪和非法活动（132 个 → **SECURITY**）以及错误信息（65 个 → **ACCOUNTABILITY**）后，我们保留了 103 个样本。
- **StrongREJECT**（Souly et al., 2024 (https://arxiv.org/html/2605.28830#bib.bib2)）：313 个禁止提示，用于测试拒绝能力。在筛选掉非暴力犯罪和非法物品（109 个 → **SECURITY**）以及虚假信息（50 个 → **ACCOUNTABILITY**）后，我们保留了 154 个样本（暴力、色情内容、仇恨/骚扰）。
- **RealToxicityPrompts**（Gehman et al., 2020 (https://arxiv.org/html/2605.28830#bib.bib1)）：99,442 个自然出现的提示，带有 Perspective API 的毒性评分，涵盖 8 个维度。在筛选掉 **flirtation** 类别（31,921 个样本，因其不映射到我们 8 个 NIST SAFETY 子类别中的任何一个）后，我们保留了 67,521 个样本。我们将剩余评分映射为二元标签，使用 0.5 作为阈值，这是二元分类的标准中点，以平衡假阳性和假阴性。
- **BeaverTails**（Ji et al., 2023 (https://arxiv.org/html/2605.28830#bib.bib3)）：27,186 个人类标注样本，包含 14 个危害类别。在筛选掉恐怖主义和武器（**SECURITY**）、金融犯罪和隐私侵犯（**PRIVACY**）、政治内容（**CROSS-CUTTING** 跨领域类别）以及非暴力不道德行为（非特定安全相关）后，我们保留了 11,553 个样本。

##### 数据集选择理由。

我们的数据集完整覆盖了所有 8 个 NIST 安全子类别：RealToxicityPrompts 提供了自然出现的毒性（骚扰、威胁、亵渎、仇恨言论）；BeaverTails 贡献了人类标注样本（暴力、色情内容、健康，以及至关重要的 **自杀与自残**——该类别唯一来源）；HarmBench 和 StrongREJECT 增加了对抗性边缘案例。这个 79,331 样本的基准涵盖了对抗性、自然出现和人类标注的来源。

##### 标签逻辑。

标签因数据集而异：HarmBench 和 StrongREJECT 的样本全部是 **unsafe**（设计为对抗性）；BeaverTails 使用人类标注的标签；RealToxicityPrompts 计算 7 个维度（排除 flirtation）中的最大毒性评分，如果评分 > 0.5 则标记样本为 unsafe。完整的标签详情见附录 B (https://arxiv.org/html/2605.28830#A2)。

**表 1：主安全数据集构成**  
最终数据集包含 79,331 个样本，其中 54.7% 为 unsafe，45.3% 为 safe 标签。值得注意的是，所有 safe 样本均来自 RealToxicityPrompts，因为其他三个数据集专门设计用于对抗性/有害内容评估。

### 3.2 评估的护栏模型

我们评估了 14 个开源护栏模型，涵盖不同的架构、大小和安全分类法。表 2 (https://arxiv.org/html/2605.28830#S3.T2) 总结了这些模型。

**表 2：评估的护栏模型**。模型按架构类型分组：仅解码器 LLM（顶部）和仅编码器 Transformer（底部）。

| 模型 | 大小 | 基础架构 | 类别数 |
| :--- | :--- | :--- | :--- |
| **仅解码器 LLM** | | | |
| Qwen Guard (Zhao et al., 2025 (https://arxiv.org/html/2605.28830#bib.bib6)) | 4B | Qwen3 | 10 |
| Nemotron Safety (Joshi et al., 2025 (https://arxiv.org/html/2605.28830#bib.bib7)) | 8B | Llama 3.1 | 23 |
| WildGuard (Han et al., 2024 (https://arxiv.org/html/2605.28830#bib.bib8)) | 7B | Mistral-7B | 13 |
| MD-Judge (Li et al., 2024 (https://arxiv.org/html/2605.28830#bib.bib9)) | 7B | InternLM2 | 16 |
| Granite Guardian (Padhi et al., 2024 (https://arxiv.org/html/2605.28830#bib.bib10)) | 8B | Granite | Custom |
| DynaGuard (Hoover et al., 2025 (https://arxiv.org/html/2605.28830#bib.bib11)) | 8B | Qwen3 | Dynamic |
| DuoGuard (Deng et al., 2025 (https://arxiv.org/html/2605.28830#bib.bib12)) | 0.5B | Qwen 2.5 | 12 |
| Llama Guard (Meta AI, 2025 (https://arxiv.org/html/2605.28830#bib.bib17)) | 12B | Llama 4 (pruned) | 14 |
| ShieldGemma (Google DeepMind, 2024 (https://arxiv.org/html/2605.28830#bib.bib16)) | 2B | Gemma 2 | 4 |
| GuardReasoner (Liu et al., 2025 (https://arxiv.org/html/2605.28830#bib.bib15)) | 3B | Llama 3.2 | Reasoning |
| GPT-OSS Safeguard (OpenAI, 2025 (https://arxiv.org/html/2605.28830#bib.bib18)) | 20B | GPT-OSS | Custom |
| **仅编码器 Transformer** | | | |
| EthicalEye (Patel and Raj, 2024 (https://arxiv.org/html/2605.28830#bib.bib13)) | 270M | XLM-RoBERTa | Binary |
| PoliteGuard (Intel Corporation, 2024 (https://arxiv.org/html/2605.28830#bib.bib14)) | 110M | BERT-base | 4 |
| MetaHateBERT (Piot et al., 2024 (https://arxiv.org/html/2605.28830#bib.bib19)) | 110M | BERT-base | Binary |

##### 标签标准化。

模型输出不同的标签（safe、unsafe、controversial、error）。我们通过将 Qwen Guard 的 `controversial` 标签映射为 `unsafe`（因为这些包含上下文中应被标记的有害内容），排除 `error` 预测，并将所有其他标签映射为二值的 safe/unsafe 来进行标准化。

## 4. 评估与结果

### 4.1 评估指标 (RQ3)

对于安全关键型应用，**召回率是主要指标**：遗漏有害内容（假阴性）的风险高于错误标记安全内容（假阳性）。我们报告召回率、精确率、F1 分数、准确率、ROC-AUC 和 MCC（马修斯相关系数），结果始终按召回率排序。

### 4.2 总体性能 (RQ1)

表 3 (https://arxiv.org/html/2605.28830#S4.T3) 展示了主要评估结果，按召回率排序。我们的主要发现是，Qwen Guard 实现了最高的召回率（83.97%），显著优于更大的模型。

**表 3：护栏模型性能（按召回率排序）**  
关键观察：(1) 保守模型是危险的——虽然 ShieldGemma 实现了最高的精确率（82.20%），但它遗漏了 54.51% 的不安全内容，而 GPT-OSS Safeguard 遗漏了 75.14%；(2) 通用模型优于专用模型——专门为仇恨言论设计的 MetaHateBERT 仅实现了 15.79% 的召回率，未能跨类别泛化。

图 1 (https://arxiv.org/html/2605.28830#S4.F1) 通过两个互补视角可视化模型性能：精确率-召回率权衡和详细的混淆矩阵。

**图 1：14 个护栏模型的性能分析。**  
(a) 精确率-召回率比较，每条线连接召回率（绿色）和精确率（蓝色）。线长表示差距——向左延伸较长的模型（GPT-OSS、Llama Guard）尽管精确率高，但遗漏了大多数不安全内容。(b) 按召回率排序的归一化混淆矩阵。左下角单元格 (FN) 显示遗漏的不安全内容：顶级模型的 FN 率为 8.8–12.5%，而保守模型的 FN 率为 41–46%。

### 4.3 按数据集的性能

表 4 (https://arxiv.org/html/2605.28830#S4.T4) 展示了前 5 个模型在每个数据集上的召回率。

**表 4：按数据集的召回率（前 5 个模型）**  
对抗性数据集表现出不同的性能：大多数模型在 HarmBench 上实现了近乎完美的召回率（99-100%），而 StrongREJECT 上的性能则参差不齐——尽管 Qwen Guard 总体领先，但在 StrongREJECT 上仅实现了 54.55% 的召回率，这暗示了数据集特定的偏差。RealToxicityPrompts 对所有模型来说都是最具挑战性的，包含许多模型难以检测的微妙的、自然出现的毒性。为了验证结果不是由源数据的人为因素驱动，我们在附录 E (https://arxiv.org/html/2605.28830#A5) 中提供了分层分析，比较了 RealToxicityPrompts（来自同一来源的平衡安全/不安全）与组合的对抗性数据集；模型排名在两个划分中保持一致。

### 4.4 按 NIST 类别的性能

表 5 (https://arxiv.org/html/2605.28830#S4.T5) 展示了所有模型在各安全类别上的召回率变化。此分析揭示了模型检测不同类型有害内容的系统性模式。

**表 5：按 NIST 安全类别的召回率（全部 14 个模型）**。类别按检测难度（平均召回率）排序：自杀/自残 (78%) > 暴力 (71%) > 仇恨 (62%) > 色情 (59%) > 健康 (57%) > 骚扰 (54%) > 亵渎 (51%) > 威胁 (43%)。粗体表示每类别最佳表现。

类别特定的发现揭示了系统性模式：暴力和自杀/自残最容易检测（大多数 LLM 召回率 > 90%），而威胁最难（平均 43.2%）。编码器模型表现出令人惊讶的优势——EthicalEye 尽管总体排名第 8，但在骚扰（89.5%）和亵渎（92.3%）上实现了最高的召回率。没有任何一个模型占据主导地位：MD-Judge 在暴力/自杀/健康方面领先，Qwen Guard 在仇恨/色情/威胁方面领先。大型模型（GPT-OSS、Llama Guard）在隐性危害类别上持续表现不佳。

### 4.5 阈值敏感性分析

使用第 3.1 节 (https://arxiv.org/html/2605.28830#S3.SS1) 中定义的标签函数，我们分析了阈

开源安全防护模型基准测试：全面评估

相似文章

OSGuard：计算机使用代理安全基准测试

大型语言模型用于安全数据提取的基准测试

Gate AI：LLM安全基准评估方法与结果

安全护栏持续改进，但如果开源权重模型超越基于云的模型会发生什么？

当无基准存在时：验证无真实标签的LLM安全评分比较

提交意见反馈