具备潜在推理能力的鲁棒高效护栏
摘要
CoLaGuard 是一种新型护栏模型,它将多步安全推理转移到连续潜在空间中,与显式推理基线相比,实现了 12.9 倍的加速和 22.4 倍的 Token 缩减,同时在十个安全基准上匹配宏 F1 性能。
arXiv:2605.29068v1 公告类型:新论文
摘要:随着大语言模型 (LLM) 越来越多地部署在现实应用中,保障其安全性至关重要。现有的安全护栏通常依赖于单次分类,或者最近采用的精简推理。基于推理的护栏显著优于仅分类的基线,但它们会产生大量的查询延迟和 Token 开销,使得它们在高吞吐量部署中不实用。为了解决这一挑战,我们提出了 COLAGUARD,这是一种通过分阶段训练课程将多步安全推理转移到连续潜在空间中的护栏模型,从而在推理时实现直接的隐藏状态传播。在跨越八个安全基准的十种提示和响应审核设置上进行评估,COLAGUARD 相比 Llama Guard 3 将宏 F1 提高了 8.24 分,并在宏 F1 上匹配了我们的显式推理基线 GuardReasoner,同时实现了 12.9 倍的加速和 22.4 倍的 Token 使用减少。我们的结果表明,对于可部署的护栏,潜在推理提供了一种实用的替代显式原理生成的方法,共同提高了安全鲁棒性和推理效率,而不是将它们视为相互竞争的目标。
查看缓存全文
缓存时间: 2026/05/29 09:12
# 基于潜在推理的鲁棒高效护栏
来源:https://arxiv.org/html/2605.29068
Siddharth Sai Xiaofei Wen Muhao Chen
加州大学戴维斯分校
\{sai, xfwe, muhchen\}@ucdavis.edu
###### 摘要
随着大型语言模型(LLM)在现实世界应用中的广泛部署,维护其安全性至关重要。现有的安全护栏通常依赖于单次分类或更近期的蒸馏推理。基于推理的护栏显著优于纯分类基线,但它们会带来大量的查询延迟和令牌开销,使得它们难以用于高吞吐量部署。为了解决这一挑战,我们提出了CoLaGuard,一种通过阶段式训练课程将多步安全推理迁移到连续潜在空间的护栏模型,从而在推理时实现直接的隐藏状态传播。在涵盖八个安全基准测试的十种提示和响应审核设置上评估,CoLaGuard在宏F1分数上比Llama Guard 3提高了8.24分,并且在宏F1分数上与我们的显式推理基线GuardReasoner相当,同时实现了12.9倍的加速和22.4倍的令牌使用量减少。我们的结果表明,对于可部署的护栏,潜在推理为显式理由生成提供了一种实用的替代方案,它联合改善了安全鲁棒性和推理效率,而不是将它们视为相互竞争的目标。
---
## 1 引言
![图1]()
图1:CoLaGuard概述。与在分配标签前生成思维链令牌的显式推理护栏(左)不同,CoLaGuard(右)通过循环潜在状态进行推理,保留了审核性能,同时避免了令牌生成开销,实现了12.9倍更快的推理和22.4倍更少的令牌使用。CoLaGuard的阶段式内化课程(中)从显式CoT监督开始,逐步用潜在状态替换推理令牌,将推理转移到隐藏激活中。
随着大型语言模型(LLM)成为日常和工业应用中不可或缺的一部分,确保它们与人类价值观保持一致至关重要。尽管像RLHF(Ouyang等,2022;Rafailov等,2023)这样的对齐训练方法可以改善模型行为,但它们需要修改目标模型,并且在部署后更新成本高昂。因此,外部安全护栏(Inan等,2023;Han等,2024)通过将输入和输出审核卸载到更小型的第三方模型上,提供了一种实用的替代方案。早期的护栏通常将审核建模为单次分类,这种方式效率高,但在模糊、对抗性或依赖于上下文的安全决策下往往变得脆弱。最近的显式推理护栏(Wen等,2025b;Liu等,2025)通过从蒸馏的思维链(CoT)监督(Hsieh等,2023;Kimet al., 2023)中学习,并在预测安全标签前生成中间理由,提高了鲁棒性。MrGuard(Yang等,2025)进一步将基于推理的护栏扩展到多语言安全审核,通过结合合成多语言监督和课程引导的组相对策略优化(GRPO)(Shao等,2024)。然而,这种鲁棒性伴随着高昂的计算成本。由于这些模型将其中间理由语言化,审核变成了一个长的自回归生成过程。额外的CoT令牌显著增加了推理时间和完成令牌成本,使得显式推理护栏难以部署在高流量、实时环境中(Liu等,2025;Sreedhar等,2025)。现有的面向效率的变体,如更短的监督轨迹或推理开/关开关(NVIDIA,2025;Sreedhar等,2025),减少了理由生成的数量或频率,但仍然依赖于显式解码,并可能牺牲鲁棒性。这激发了一个自然的问题:护栏能否在不生成推理令牌的情况下,保留推理监督的好处?
我们通过CoLaGuard来研究这个问题,它是一种潜在推理安全护栏,如图1所示,将显式的安全理由内化为连续的循环状态。受Coconut(Hao等,2025)和ICoT-SI(Deng等,2025)的启发,CoLaGuard执行固定数量的潜在循环步骤来代替显式的理由生成。它首先从CoT监督中学习,然后逐步用潜在状态替换理由令牌,使模型能够直接预测安全标签,而无需自回归的理由生成。一个实际的挑战是,预训练的LLM经过优化,可以消耗令牌嵌入而不是循环的上下文隐藏状态,这可能会在潜在循环期间造成分布不匹配。为了减少这种不匹配,我们采用了上下文预测融合(Liu等,2026),它将上下文隐藏状态信息与来自词汇嵌入空间的预测性语义指导相结合。这稳定了潜在循环,同时保持了避免显式CoT生成所带来的延迟和令牌效率优势。
总而言之,本工作做出了三个主要贡献。(1)我们引入了CoLaGuard,一种通过阶段式课程内化显式安全理由的潜在推理安全护栏,使得在推理时无需自回归理由生成即可进行审核。(2)我们表明,CoLaGuard在显著降低推理成本的同时,保留了显式推理护栏的鲁棒性,这表明基于推理的审核可以在没有语言化理由的情况下变得实用。(3)我们分析了潜在循环过程,发现CoLaGuard在普通的Coconut基础上有所改进,这与潜在步骤中安全相关表示的渐进式变化一致,而这种变化在普通的Coconut循环中基本缺失。
## 2 相关工作
#### LLM护栏
外部护栏提供了一种轻量级的安全审核机制,无需修改基础LLM。早期的架构如Llama Guard(Inan等,2023)和WildGuard(Han等,2024)将审核视为分类,随后出现如ShieldGemma(Zeng等,2024)、Aegis(Ghosh等,2024)和Qwen3Guard(Zhao等,2025)等模型,通过更广泛的分类体系提高了性能。更广泛的护栏文献通过对抗性弹性审核(Yuan等,2024)和结构化安全知识(Kang and Li, 2025)扩展了鲁棒性。最近的工作通过推理进一步提高了性能:GuardReasoner(Liu等,2025)和ThinkGuard(Wen等,2025b)使用来自专家模型的思维链理由(Wei等,2023)来改善泛化能力,而MrGuard(Yang等,2025)通过合成多语言监督和课程引导的GRPO将基于推理的护栏扩展到多语言审核。其他人通过更短的理由轨迹和开/关开关(NVIDIA,2025;Sreedhar等,2025;Rebedea等,2023)探索效率权衡。然而,由于这些模型用自然语言表达推理,它们会招致高昂的自回归解码成本,限制了它们在高流量、真实世界部署中的实用性。
#### 潜在推理
越来越多的文献表明,有效的推理可以在模型的隐藏状态内部发生,而不是通过显式令牌(Chen等,2025;Zhu等,2025;Biran等,2024)。这一领域包括为模型添加“思考”令牌(Goyal等,2024;Zelikman等,2024;Pfau等,2024)、通过阶段式课程内化CoT(Deng等,2023, 2025)以及将隐藏状态作为连续输入嵌入反馈(Hao等,2025;Cheng and Durme, 2024;Zhu等,2025)。然而,这些方法主要是在数学和逻辑推理任务上进行研究,并且直接循环使用原始隐藏状态在更大规模上可能因与令牌嵌入流形的分布不匹配而变得不稳定。潜在思维调整(Liu等,2026)通过一种上下文预测融合机制解决了这个问题,该机制将上下文隐藏状态与来自词汇嵌入空间的预测性信号对齐。CoLaGuard采用了这些技术,表明潜在推理可以显著降低延迟成本,并在安全审核中保留显式基线的鲁棒性。
## 3 CoLaGuard
我们现在介绍CoLaGuard,一种用于高效提示和响应审核的潜在推理护栏框架。CoLaGuard使用由专家模型生成的显式安全理由作为训练时的监督,然后逐步将这种逐步推理内化为循环潜在状态,使得推理时仅需固定的潜在计算预算,然后解码安全标签。我们在§3.1中形式化护栏任务,在§3.2–§3.3中描述推理增强监督和显式预热,并在§3.4–§3.6中介绍潜在循环、阶段式内化和高效推理。
### 3.1 护栏任务
给定用户提示$x$和模型响应$s$,护栏模型$G_\theta$预测输入请求和生成响应的安全性$(\hat{y}^p, \hat{y}^r) = G_\theta(x, s)$,其中$\hat{y}^p \in \mathcal{Y}$表示预测的提示有害标签,$\hat{y}^r \in \mathcal{Y}$表示预测的响应有害标签,$\mathcal{Y}$表示护栏策略中的安全类别集合。
### 3.2 推理增强监督
核心挑战在于保持基于推理的护栏的鲁棒性,同时不需要护栏在推理时语言化其推理过程。CoLaGuard通过使用显式理由进行初始训练支架来解决这个问题。这遵循了先前关于思维链推理、逐步蒸馏和基于推理的安全护栏的工作,其中中间理由提供了比最终标签更丰富的监督(Wei等,2023;Hsieh等,2023;Kim等,2023;Liu等,2025;Wen等,2025b)。我们假设可以访问一个推理增强的护栏语料库$\mathcal{D} = \{ (x_i, s_i, r_i, y_i) \}_{i=1}^N$,其中$x_i$是用户提示,$s_i$是对应的模型响应,$y_i = (y_i^p, y_i^r)$包含最终的提示和响应安全标签,$r_i = (r_i^1, r_i^2, \ldots, r_i^{m_i})$是步骤分离的安全理由。与标准的仅标签护栏训练不同,这种监督使模型接触到最终审核决策背后的推理。然而,CoLaGuard并不旨在推理时生成这些理由。相反,这些理由在训练的初始阶段充当目标,以便模型后续可以将思考过程压缩为潜在步骤。
### 3.3 显式推理预热
第一阶段(阶段0)将模型训练为显式推理护栏。给定指令$I$、提示$x$、响应$s$、理由$r$和最终标签元组$y$,模型被优化以生成结构化的安全相关理由,然后生成最终的安全标签:
$$\mathcal{L}_{\mathrm{warm}} = -\mathbb{E}_{(x,s,r,y)\sim\mathcal{D}} \log p_\theta(r, y \mid I, x, s).$$
这种预热遵循显式推理护栏范式,其中模型学习在预测最终审核标签之前语言化中间安全推理(Liu等,2025;Wen等,2025b)。我们将结果模型记为$G_\theta^0$,后续阶段将逐步用潜在循环步骤替换显式理由步骤。
### 3.4 双模式潜在循环
为了内化推理,CoLaGuard在两种模式之间切换。在语言模式下,模型消耗标准令牌嵌入并自回归地预测下一个令牌。在潜在模式下,模型不消耗标准令牌嵌入;相反,前一个隐藏状态被反馈作为下一个输入表示。令$e(\cdot)$表示令牌嵌入函数,$h_t \in \mathbb{R}^d$是位置$t$处的最后一层隐藏状态。对于从位置$a$开始到位置$b$结束的潜在跨度,普通的潜在循环将每个潜在位置的输入嵌入替换为前一个隐藏状态:
$$E_t = \begin{cases}
e(w_t), & t < a \text{ 或 } t > b, \\
h_{t-1}, & a \leq t \leq b,
\end{cases}$$
其中$w_t$是潜在跨度外位置$t$处的离散令牌。这遵循了Hao等人(2025)引入的连续思维链公式,允许模型在连续的潜在空间中进行循环计算,而不是生成中间理由令牌。虽然这种潜在循环为CoLaGuard奠定了基础,但直接将上下文隐藏状态反馈回预训练变换器会创建分布不匹配。相似文章
OpenGuardrails: 一个开源的上下文感知AI护栏平台
OpenGuardrails 是一个面向AI安全的开源平台,通过统一模型提供上下文感知的内容安全与操纵检测(例如提示注入、越狱),以及一个独立的NER管道用于数据泄露识别。它在安全基准测试上取得了最先进的性能,并支持私有化、企业级部署。
面向危害感知的LLM数学推理事后替换的受保护修复方法
提出了一种名为GuardedRepair的框架,用于对LLM数学推理进行事后替换,通过选择性替换和安全防护来修复错误,同时最小化对正确推理轨迹的损害。在GSM8K上,该方法在未破坏正确答案的情况下,将准确率从95.60%提升至96.89%。
自适应潜在智能体推理
本文介绍了自适应潜在智能体推理(ALAR),一种针对LLM智能体的双模式框架,它使用紧凑的潜在推理处理常规轮次,并选择性地升级为显式思维链以应对更困难的决策,实现了高达84.6%的令牌减少,同时保持任务准确性。
ReFlect:用于复杂长周期大语言模型推理的有效包装系统
本文介绍了 ReFlect,这是一种无需训练的包装系统,通过为大语言模型包裹确定性的错误检测与恢复逻辑,来提升其在复杂、长周期推理任务上的性能。
SafeHarbor:面向LLM代理安全的分层记忆增强护栏
SafeHarbor是一个用于LLM代理安全的新型框架,它利用分层记忆和自进化机制来平衡安全性与实用性,在良性任务和恶意任务上均实现了最先进的性能。