安全护栏需要推理吗?LeanGuard:一种快速轻量的鲁棒审核方法
摘要
本文介绍了LeanGuard,一种基于轻量级双向编码器的安全护栏,在匹配更大规模推理式护栏精度的同时,速度提升约100倍,挑战了“链式推理对于有效审核必不可少”的假设。
arXiv:2606.26686v1 公告类型:新
摘要:为了筛查提示或响应,最近的护栏方法在给出判定之前会生成链式推理(CoT)。这种设计遵循了一种普遍观点,即逐步推理有助于提升决策质量。然而,CoT也使护栏变得沉重而缓慢,因为模型在做出决定前必须生成大量token。这可能不符合护栏实际部署的场景——护栏有时不应过于沉重和缓慢,且常常运行在设备端(例如在具身机器人上)。本文提出一个问题:安全护栏真的需要推理吗?为回答此问题,我们在同一语料库上训练了一个轻量级双向编码器和一个推理式护栏,然后仅移除推理部分,保持其他一切不变。通过这种受控的相同基线对比,我们证明链式推理并未提升审核准确率。我们将由此得到的护栏命名为LeanGuard。一个395M的仅标签编码器在公开基准测试上平均F1达到82.90 $\pm$ 0.26,与基于更大解码器构建的推理式护栏表现相当,而它仅需对最多512个token的输入进行一次前向传播。推理计算量减少了约100倍。我们进一步证明,该仅标签编码器在训练标签噪声下保持鲁棒,并且在严格假阳性率下召回率远高于推理式护栏,因此更重的推理式护栏也并非更鲁棒的选择。我们的发现表明,当前护栏基准测试可能难度不足,不足以奖励推理,而CoT对审核的必要性尚未得到证实。我们已将所有源代码和模型(包括LeanGuard)发布在 https://github.com/ndb796/LeanGuard。
查看缓存全文
缓存时间: 2026/06/26 05:15
# 安全护栏需要推理吗?LeanGuard:一种用于稳健审核的快速轻量方法
来源:https://arxiv.org/html/2606.26686
###### 摘要
为筛查提示或响应,最近的护栏方法在输出裁决前会生成一段思维链(CoT)。这种设计遵循了一个常见的信念,即逐步推理有助于提升决策质量。然而,CoT 也使得护栏变得笨重且缓慢,因为模型在做出决定前必须生成许多 token。这或许并不符合护栏实际部署的情况。护栏有时不应过于笨重和缓慢,并且它常常运行在设备端,例如在实体机器人上。在本文中,我们提出一个问题:安全护栏是否真的需要推理?为了回答这个问题,我们在同一语料库上训练了一个轻量级双向编码器和一个推理护栏,然后我们仅移除推理部分,保持其他所有设置不变。通过这种受控的相同基座对比,我们表明思维链并未提高审核准确率。我们将由此得到的护栏命名为 LeanGuard。一个 395M 参数的纯标签编码器在公开基准测试上达到了平均 F1 分数 82.90±0.26。它与基于更大解码器构建的推理护栏性能相当,而仅需对最多 512 个 token 的输入进行一次前向传播。推理计算量减少了约 100 倍。我们进一步表明,这种纯标签编码器在训练标签噪声下保持稳健,并在严格假阳性率下保留了比推理护栏多得多的召回率,因此,更重的推理护栏也并非更稳健的选择。我们的发现表明,当前的护栏基准测试可能难度不足,不足以体现推理的价值,并且 CoT 对于审核的必要性尚未得到证实。我们将在 https://github.com/ndb796/LeanGuard 发布所有源代码和模型(包括 LeanGuard)。111项目页面:https://ndb796.github.io/LeanGuard/。
## 1 引言
参考图注Figure 1:成本-准确率平面(log x)。我们的 LeanGuard(395M 纯标签编码器)性能与更大的推理护栏相当,但推理成本降低了约 100 倍,且只需一次前向传播。我们训练此模型并以开源护栏的形式发布。
大语言模型越来越多地部署在*安全护栏*之后,这些模型负责审查提示和响应中是否存在有害内容,并决定系统是应该遵从还是拒绝(Inan 等人, 2023 (https://arxiv.org/html/2606.26686#bib.bib4);Han 等人, 2024 (https://arxiv.org/html/2606.26686#bib.bib6);Ghosh 等人, 2024 (https://arxiv.org/html/2606.26686#bib.bib7))。随着护栏已成为标准基础设施,两种设计选择占据主导地位。第一种是将护栏构建为一个大型的基于解码器的生成式分类器,对其进行微调以直接用自然语言输出裁决。第二种则是一个快速发展的研究方向,即让同一个解码器在做出裁决之前*先进行推理*。例如,GuardReasoner(Liu 等人, 2025b (https://arxiv.org/html/2606.26686#bib.bib5))训练模型在最终裁决之前生成显式的思维链(CoT),其前提是逐步思考能产生更准确、更可信的护栏。
这种先推理的观点已趋近于共识,然而这种共识可能放错了位置。安全审核,其核心是一个有限的*标签分类*决策,例如询问“*此输入是否有害?*”或“*模型是遵从还是拒绝了?*”它并非 CoT 已被证明有帮助的那种开放式、多步骤问题(Sprague 等人, 2025 (https://arxiv.org/html/2606.26686#bib.bib15))。在我们的实验中,一个轻量级的双向编码器(BERT 系列模型),在仅使用几百个 token 的严格输入预算下,无需生成任何推理,就能与解码器推理护栏相匹敌。在我们的实验中,一个小的单次分类器能够与一个远大于其的推理模型并驾齐驱,这可能导致两个结论之一,每个都意义重大:要么 (1) 当前的护栏基准测试还不够困难,不足以体现推理的价值;要么 (2) CoT 对于安全审核的必要性从未被真正证明。我们旨在验证这一点。
参考图注Figure 2:护栏解码器的思维链可能是事后产生的。当解码器从左到右生成其思维链时,我们读取其隐藏状态在早期 token、中间 token 和晚期 token 处的值,然后在晚期(判决时)状态上拟合一个线性探针,并将其应用于早期状态。所有三个隐藏状态都已经落入决策空间中有害区域,且探针置信度几乎没有变化。因此,判决在思维链写出之前就已固定,后续的推理只是复述。当我们重新采样思维链时,多数判决只在大约 5% 的输入上发生变化(观察 1),但推理成本却增加了约 100 倍。
我们围绕该领域关于推理护栏的两个*误解*来组织证据:**(M1)** 思维链对于准确的护栏是必要的;**(M2)** 更重的生成式或推理护栏能力更强,对训练标签噪声更鲁棒。我们的核心工具是一个*相同基座*比较,仅改变模型在做出标签决策前是否进行推理。我们保持架构、规模、预训练和数据固定,这是孤立推理效果的唯一受控切面。我们的贡献如下。
- • **一个普通解码器无需推理即可达到最先进水平。** 通过广泛的相同基座实验,在相同的解码器骨干网络上,仅训练模型直接预测判决(无思维链)便与 GuardReasoner 的推理方案性能相当。先前研究中常被视为必要的推理可能并未带来任何准确率提升。我们认为这是一个被忽视的结果。标准的判别式骨干网络可能已经足够(第5节 (https://arxiv.org/html/2606.26686#S5))。
- • **推理常常是事后产生的,应谨慎使用。** 在我们的实验中,重新采样思维链几乎从不改变最终判决。模型在实际推理之前就已做出决定,因此思维链只是为预先确定的答案提供合理性依据,而非计算得出。这引发了推理是否真正有用的疑问。我们还发现,在固定基座上添加思维链并未提高准确率,甚至可能降低,因此思维链可能悄悄地造成损害(第5节 (https://arxiv.org/html/2606.26686#S5.SSx1))。
- • **更重的推理护栏可能并非更稳健的选择。** 纯标签编码器在注入训练标签噪声下保持准确,即使大部分标签被破坏也能维持较强的 F1 分数,并且在严格的假阳性率下保留了比推理护栏多得多的召回率,而在此情况下推理护栏的置信度会发生极化。在我们的实验中,更重、更慢并不意味着更鲁棒(第6节 (https://arxiv.org/html/2606.26686#S6))。
- • **一个开源的、可部署的护栏。** 除了分析之外,我们还发布了一个实用模型 LeanGuard,一个 395M 的单次传播护栏,我们公开提供 ONNX 导出格式以供设备端使用,同时提供与主流护栏(Llama Guard 2 和 3、WildGuard、Aegis、ShieldGemma、MD-Judge)的统一且可重复的比较,以及所有训练和评估代码。我们希望这个轻量级、无推理的护栏模型能成为一个即插即用的基线,供社区在此基础上发展。
在本研究中,“推理”特指 CoT 微调,而非测试时推理、工具使用或基于验证器的方法。这项工作是一个受控的实证研究,而非新架构,我们将发布 LeanGuard 及其所有代码和模型。
## 2 相关工作
**基于 LLM 的安全护栏。** Llama Guard(Inan 等人, 2023 (https://arxiv.org/html/2606.26686#bib.bib4); Dubey and others 2024 (https://arxiv.org/html/2606.26686#bib.bib40))将提示和响应审核重新定义为在约 7B 参数的解码器上进行指令微调的生成式分类,这一模板被 Llama Guard 3(Meta AI 2024 (https://arxiv.org/html/2606.26686#bib.bib24))、Aegis(Ghosh 等人, 2024 (https://arxiv.org/html/2606.26686#bib.bib7))、ShieldGemma(Zeng and others 2024 (https://arxiv.org/html/2606.26686#bib.bib23))、WildGuard(Han 等人, 2024 (https://arxiv.org/html/2606.26686#bib.bib6))、MD-Judge(Li and others 2024 (https://arxiv.org/html/2606.26686#bib.bib25))和 Granite Guardian(Padhi and others 2024 (https://arxiv.org/html/2606.26686#bib.bib26))继承,并在一个已成为标准套件的基准上进行评估(Lin 等人, 2023 (https://arxiv.org/html/2606.26686#bib.bib8); Markov 等人, 2023 (https://arxiv.org/html/2606.26686#bib.bib9); Mazeika 等人, 2024 (https://arxiv.org/html/2606.26686#bib.bib10); Ji 等人, 2023 (https://arxiv.org/html/2606.26686#bib.bib11); Dai 等人, 2024 (https://arxiv.org/html/2606.26686#bib.bib12); Röttger 等人, 2024 (https://arxiv.org/html/2606.26686#bib.bib13))。在这一系列研究中,护栏几乎总是一个达数十亿参数的生成式模型,而判别式编码器替代方案则是一条未被探索的道路,尽管这种编码器对于固定标签决策来说是非常自然的选择。
**推理护栏。** 一个快速发展的方向让生成式护栏*先进行推理*。GuardReasoner(Liu 等人, 2025b (https://arxiv.org/html/2606.26686#bib.bib5))是我们最接近的基线,使用了 R-SFT 和 HS-DPO。ThinkGuard(Wen and others 2025 (https://arxiv.org/html/2606.26686#bib.bib32))基于单次分类器过于浅显的前提,蒸馏出慢思考。R2-Guard(Kang and Li 2024 (https://arxiv.org/html/2606.26686#bib.bib33))增加了基于知识的逻辑推理,并扩展到多语言和多模态审核。所有这些研究都共享一个假设,即准确的护栏必须进行推理,然而它们并未深入进行干净的*相同基座*消融实验(仅移除推理),因此其报告的增益混杂了架构、规模、数据和目标。我们提供了这种消融实验。
**重新审视噪声标签与 CoT 的必要性。** 最近的证据发现 CoT 的帮助远不如假设中广泛。CoT 带来的巨大增益几乎只体现在数学和符号任务上(Sprague 等人, 2025 (https://arxiv.org/html/2606.26686#bib.bib15)),其思维链常常是事后解释而非因果性的(Turpin 等人, 2023 (https://arxiv.org/html/2606.26686#bib.bib14); Lanham and others 2023 (https://arxiv.org/html/2606.26686#bib.bib27)),效率文献记录了浪费性的“过度思考”(Sui and others 2025 (https://arxiv.org/html/2606.26686#bib.bib34)),而潜在推理方法在不生成任何显式推理的情况下恢复了性能提升(Deng 等人, 2024 (https://arxiv.org/html/2606.26686#bib.bib35); Hao 等人, 2024 (https://arxiv.org/html/2606.26686#bib.bib36))。安全审核是一个短小的、非符号性的标签任务,输出空间很小,因此先前的工作可能处于这个不利的机制中。我们的护栏也在标签存在噪声的语料库上训练,早期学习正则化(Liu 等人, 2020 (https://arxiv.org/html/2606.26686#bib.bib17))解释了为何单周期的判别式配方能保持鲁棒性,而 CoT 微调则容易传播噪声(Havrilla and Iyer 2024 (https://arxiv.org/html/2606.26686#bib.bib18); Zhou 等人, 2024 (https://arxiv.org/html/2606.26686#bib.bib19)),并且经典的噪声鲁棒损失函数(Zhang and Sabuncu 2018 (https://arxiv.org/html/2606.26686#bib.bib20); Müller 等人, 2019 (https://arxiv.org/html/2606.26686#bib.bib21); Chowdhury 等人, 2024 (https://arxiv.org/html/2606.26686#bib.bib22))对于自由形式的推理轨迹没有明确的对应物。
**具身与机器人智能体的安全。** 随着 LLM 和 VLM 开始驱动机器人,诸如 ASIMOV(Sermanet 等人, 2025 (https://arxiv.org/html/2606.26686#bib.bib29))、SafeAgentBench(Yin and others 2024 (https://arxiv.org/html/2606.26686#bib.bib28))和 AgentSafe(Liu 等人, 2025a (https://arxiv.org/html/2606.26686#bib.bib30))等基准测试,将风险按照阿西莫夫三定律组织为对人类、环境和智能体本身的伤害,报告称有能力的规划器以高比率执行不安全任务(Zhang and others 2024 (https://arxiv.org/html/2606.26686#bib.bib38)),而 RoboGuard(Ravichandran 等人, 2025 (https://arxiv.org/html/2606.26686#bib.bib37))等防御措施则将笨重的、推理驱动的安全保障插入控制循环中。这些都说明为何设备端护栏必须小而快,以及为何需等待思维链生成的护栏不适合具身场景(Wang 等人, 2025 (https://arxiv.org/html/2606.26686#bib.bib31))。对于这些智能体所做的空间决策,可靠性同样至关重要。在用于导航的空间问答中,像 BinTrack(Na 等人, 2026b (https://arxiv.org/html/2606.26686#bib.bib41))这样的定位智能体必须返回精确的度量坐标,因为大的定位误差可能导致机器人远离目标,浪费长时间的遍历才能恢复。一个自信的错误答案的高昂代价正是护栏应该防止的,而 Semantic Flip(Na 等人, 2026a (https://arxiv.org/html/2606.26686#bib.bib42))合成了分布外的查询和记忆对,以便轻量级拒绝模块能够学习何时一个具身查询是不可回答的,此时智能体应拒绝而非基于任意坐标行动。这些机器人空间推理流程与文本审核提出了同样的论点:准确、轻量和快速的护栏才是设备端智能体实际能够运行的。
## 3 问题形式化
一个审核实例为 x = (p, a),包含一个提示 p 和一个可选的响应 a。标签是一个三元组 y = (y^{req}, y^{comp}, y^{resp}),由整数编码的判决组成。请求有害性标签 y^{req} ∈ {0, 1},其中 0 表示无害请求,1 表示有害请求。响应有害性标签 y^{resp} ∈ {0, 1},其中 0 表示无害响应,1 表示有害响应。完成性标签 y^{comp} ∈ {0, 1},其中 0 表示拒绝,1 表示遵从。一个*判别式编码器*计算一个双向表示 h = Enc_φ(x),并在单次前向传播中读取 ŷ^{(k)} = arg max(W_k h)。一个*生成式推理器*联合建模一条思维链 r = (r_1, ..., r_T) 和判决,P_θ(r, y | x) = ∏_t P_θ(r_t | x, r_{<t}) P_θ(y | x, r),并在 y 之前*解码* r。
**判别式编码器。** 我们的主要护栏 f_φ 是 ModernBERT-large(Warner 等人, 2024 (https://arxiv.org/html/2606.26686#bib.bib2); Devlin 等人, 2019 (https://arxiv.org/html/2606.26686#bib.bib1))。它将完整实例编码成一个单一的池化表示 h = Enc_φ(x) ∈ ℝ^d,并附加三个独立的线性头 W_{req}, W_{comp}, W_{resp},每个对应一个判决分量,各自使用交叉熵损失针对其真实标签进行训练。目标函数是它们的和 L_φ = Σ_k CE(W_k h, y^{(k)}),推理时通过 ŷ^{(k)} = arg max(W_k h) 在单次前向传播中直接读出。监督信号仅为判决,从未构造或评分任何推理,因此模型将其全部容量投入到标签分类决策中,而非生成流畅文本。这对于有限标签问题来说是自然的归纳偏差。双向注意力允许每个 token 在做出一个决策之前关注所有其他 token。相似文章
具备潜在推理能力的鲁棒高效护栏
CoLaGuard 是一种新型护栏模型,它将多步安全推理转移到连续潜在空间中,与显式推理基线相比,实现了 12.9 倍的加速和 22.4 倍的 Token 缩减,同时在十个安全基准上匹配宏 F1 性能。
SingGuard: 策略自适应多模态LLM护栏与动态推理
SingGuard是一种策略自适应多模态LLM护栏模型,用于文本、图像和多语言安全审核,具备动态推理能力,并包含新基准SingGuard-Bench。它在多个数据集上取得了最先进的结果。
OpenGuardrails: 一个开源的上下文感知AI护栏平台
OpenGuardrails 是一个面向AI安全的开源平台,通过统一模型提供上下文感知的内容安全与操纵检测(例如提示注入、越狱),以及一个独立的NER管道用于数据泄露识别。它在安全基准测试上取得了最先进的性能,并支持私有化、企业级部署。
CHILLGuard:面向细粒度中文大模型安全护栏的可扩展数据构建与模型感知偏好对齐
本文介绍了CHILLGuard,一个基于新的5大类、31小类风险分类体系和可扩展多阶段数据构建流程的细粒度中文大模型内容安全护栏。该模型实现了最先进的性能,在F1分数上相比现有基线提升了15.92%。
风险链条:大型推理模型中的安全失效及通过自适应多原则引导进行缓解
本文研究了大型推理模型中的安全失效问题,即尽管最终答案安全,但推理轨迹中仍会出现有害内容,并提出了一种自适应多原则引导方法来缓解这些风险。