可配置奖励模型用于平衡安全对齐

arXiv cs.CL 2026/06/01 04:00 论文

configurable-safety reward-model safety-alignment llm meta benchmark

摘要

本文介绍了一种可配置安全奖励模型（CSRM），该奖励模型可根据需求配置，以适应大语言模型对齐中异构且不断变化的安全要求。CSRM在可配置安全基准上取得了最先进的结果，并改善了有用性与安全性之间的权衡。

arXiv:2605.30487v1 公告类型：新摘要：将大语言模型（LLM）与异构且快速发展的安全要求对齐仍然是一个关键挑战。现有的指令微调LLM和独立安全分类器通常无法泛化到新的安全配置，这促使我们需要明确可配置以适应变化规范的奖励模型（RM）。我们引入了可配置安全奖励模型（CSRM），该模型针对校准的安全合规性和奖励建模进行了联合优化。我们的方法得到了配置定向数据增强的支持，该增强在保持相对严重性结构的同时强制指令遵循。由此产生的RM对细粒度安全配置和对话细微差别敏感，显著提高了对未见过的安全配置的泛化能力。CSRM在最近的可配置安全基准上取得了最先进的性能，包括CoSApien（94.6% F1）和DynaBench（75.8% F1），无需额外的人工标注。当用于下游安全对齐时，与现有基线相比，CSRM使LLM在有用性-安全性权衡方面有了显著改善。

查看原文

查看缓存全文

缓存时间: 2026/06/01 09:24

# 可配置安全奖励模型：实现均衡的安全对齐

## 摘要

将大型语言模型（LLM）与异质且快速演变的安全需求对齐仍是一项关键挑战。现有的指令微调LLM和独立安全分类器往往无法泛化到新的安全配置，这激发了对能够显式适应变化规格的奖励模型（RM）的需求。我们引入了可配置安全奖励模型（CSRM），该模型针对校准后的安全合规性和奖励建模进行了联合优化。我们的方法通过配置定向的数据增强来支持，这种增强在保持相对严重性结构的同时强制指令遵循。由此产生的RM对细粒度的安全配置和对话细微差别具有敏感性，显著提升了对未见安全配置的泛化能力。CSRM在最新的可配置安全基准测试中达到了最先进的性能，包括CoSApien（94.6% F1）和DynaBench（75.8% F1），且无需额外的人工标注。当用于下游安全对齐时，与现有基线相比，CSRM使LLM获得了显著改善的有用性-安全权衡。

---

## 1 引言

参考图注

图1: CSRM在安全对齐设计空间中的定位。与先前的护栏和可配置评判器不同，CSRM*同时*适应上下文中的安全配置，推理速度快（无需多步思考），且经过校准以提供用于策略优化的密集奖励信号。

大型语言模型（LLM）研究的前沿已从扩展模型能力转向对齐、控制和安全性等更细微的挑战。随着这些系统从研究原型过渡到部署产品，一个关键的张力出现了：安全性并非普遍恒定的常数，而是一个依赖于上下文的变量，其由文化规范、法律管辖区和组织政策所塑造。一个对于创意写作助手来说合适的回应，可能会违反金融服务中的合规要求，或在临床环境中构成真正的风险。这种内在的异质性暴露了当前安全对齐范式的一个根本局限性。

当前的对齐方法，最值得注意的是基于人类反馈的强化学习（RLHF），通常依赖于一个*静态奖励模型*（RM）。在这种范式中，安全知识在训练期间被隐式编码到RM参数中，然后在部署时保持不变，充当人类价值观的冻结代理。虽然这对于强制执行单一的、通用目的的“无害”概念是有效的，但这种设计从根本上说是僵化的。当安全要求发生变化时——例如引入新的仇恨言论法规、特定领域的合规规则或组织特定的品牌指南——标准工作流程需要完整的重新训练和部署周期。这涉及到收集新的人工标注、重新训练RM并重新运行RLHF，这一过程既昂贵，又在安全策略持续演变或对抗性行为出现速度快于重新训练周期所能适应的环境中，在操作上存在不匹配。

针对不断变化的安全需求，一种更常见的回应是专注于*可配置判断*而非可配置奖励建模，这导致了大量关于独立或提示条件的安全分类器的工作。这些系统通过在用户指定的指南下产生安全判断，在推理时适应新策略。然而，由于它们被训练为判别式分类器或基于推理的评判器，它们的输出呈现出不适合强化学习的奖励几何形状：概率要么急剧峰值（如在二元或多类分类器中），要么过于平坦（如在深思熟虑的、提示条件的评判器中），从而产生稀疏、校准不佳且对于策略优化实际上不可微的信号。因此，虽然作为推理时的过滤器有效，但此类模型不能用作内循环奖励，而强化学习需要平滑、分级的反馈来导航细粒度的安全权衡。在实践中，这些限制经常表现为*过度拒绝*，即模型默认拒绝良性请求以对冲不确定性，从而显著降低实用性。

这些限制指向了当前安全对齐流程中缺失的一个组件：一个既能在*推理时可配置*，又能用作*密集、校准的优化信号*的奖励模型。在这项工作中，我们引入了**可配置安全奖励模型（CSRM）**，它在推理时显式地以自然语言安全配置为条件，同时产生适用于强化学习的标量奖励。如图1所示，CSRM被设计为在RLHF的内循环中运作，能够在不重新训练的情况下高效适应新的安全规范，并支持使用信息丰富、具有严重性意识的奖励进行下游策略学习。

### 我们的贡献

受静态奖励模型和可配置评判器在强化学习中局限性的驱动，我们引入了可配置安全奖励模型（CSRM），这是一种明确设计为既可在推理时配置又适用于内循环策略优化的奖励模型。我们的贡献有三个方面：

- **可配置、校准的安全奖励建模**。我们提出了一种奖励模型，它在推理时直接以自然语言安全配置为条件，产生一个密集且经过校准的标量奖励，而不是二元判断。这使得能够在不重新训练的情况下对安全行为进行细粒度控制，同时保持与基于梯度的策略优化的兼容性。
- **结合定向增强的联合判别-生成训练**。我们在一个统一的生成框架内统一了安全分类和奖励建模，并引入了配置定向的数据增强，系统地改变指南的严格程度。在这种受控谱系上的训练教会模型区分边界违规和严重违规，并泛化到未见的安全配置，而无需额外的人工标注。
- **下游RL中改进的安全-有用性权衡**。我们证明CSRM为强化学习提供了更具信息量的奖励信号，产生的策略避免了过度拒绝，同时保持了强大的安全保证。在多种对齐设置中，CSRM持续扩展了安全与实用性之间的帕累托前沿。

与当代的“系统2”安全架构（它们作为独立评判器或推理时过滤器运行）不同，CSRM被明确设计为在强化学习的内循环中充当*密集的、可配置的奖励信号*，从而能够训练出本质上更安全的模型，而不仅仅是监管它们的输出。

---

## 2 相关工作

#### 校准的奖励建模

如果奖励模型$R$的分数可以概率性地解释，那么它就是*校准*的：对于任何分数$s$，在分配得分为$s$的回应中，真正被偏好的回应比例等于$s$。形式上，对于一个二元的“良好”指示器：
$$\Pr(\mathbb{I}[\text{$(x,r)$ is GOOD}]=1 \mid R(x,r)=s)=s.$$
校准将奖励输出从任意标量转化为对预期效用的有意义的估计，并且可能与满足特定的成对选择参数化（例如，Bradley-Terry）同等重要。在实践中，奖励模型经常表现出系统性失真，包括长度、风格和其他结构性偏差。这种失准可能诱导过度自信的偏好，并导致不稳定或无效的策略优化，尤其是当奖励提供稀疏或形状不良的学习信号时。

因此，最近的工作通过引入不确定性感知的目标来增强RLHF，鼓励策略不仅匹配成对结果，还匹配置信度差距。一种常见的方法是使用辅助或启发式信号应用事后校准。相比之下，我们的方法旨在通过定向数据增强在*训练期间*诱导校准，利用了先前工作中观察到的排名质量与校准之间的经验联系。

#### 安全护栏与判别式分类器

现代安全审核越来越依赖于基于LLM的护栏，例如Llama Guard、ShieldGemma和WildGuard，它们微调模型以在固定的分类体系下对输入进行分类。然而，作为判别式分类器，它们主要输出分类决策或稀疏/峰值概率，为策略优化提供微弱的信号，而策略优化需要密集的奖励来表达细粒度的安全权衡。“系统2”框架增加了通过多步推理实现的上下文配置，但这通常会导致显著的延迟。相比之下，CSRM产生一个密集的、配置条件的标量奖励，支持高效的适应性对齐，而无需重新训练。

#### 可控安全对齐

当前的安全对齐通常依赖于静态的、固定的配置，这些配置在统一的安全定义之外泛化能力差。虽然激活引导提供了一定的可控性，但它缺乏复杂、未见安全特征所需的细粒度适应性。最近的基于条件的微调方法，包括像张等人和DynaGuard这样的安全特定实现，试图通过上下文适应性或显式推理来解决这个问题。然而，这些方法通常面临高推理延迟或校准问题。相比之下，CSRM提供了一种简化的替代方案：一个密集的、校准的奖励信号，能够适应新颖的安全配置，而无需推理步骤或测试时优化的开销，从而产生更优的下游对齐效果。

---

## 3 方法论

在本节中，我们提出了一个框架，用于在不同安全配置下评估多步对话中智能体最终回应的安全合规性。我们的方法旨在（A）适应新颖的安全策略，同时（B）保持反映违规严重性的校准奖励。我们通过两个关键贡献实现这一点：一组定向数据增强（第3.2节）和一个联合训练目标（第3.3节）。我们首先在第3.1节中正式定义安全配置并建立我们的符号体系。

### 3.1 术语

**安全配置**是一组规则，包含精心定义的自然语言指南，描述了可接受和不可接受的内容。遵循Llama Guard的规范，我们允许每个安全类别$p_i \in \mathbf{p}$具有一个自然语言描述$d_i$，我们称之为**指南**，详细说明了该类别内什么是安全或不安全的。虽然不同的护栏模型使用多种格式的安全配置模板，但我们主要基于zeng等人引入的结构，因为它清晰地区分了作为上下文的**对话历史**$x$和待分类的**最后智能体回应**$r$。我们将对话历史中的任何表述表示为一个元组$(u, a)$，其中$u$是说话者的身份，$a$是表述的内容。最后，格式化部分指定了可预测的标签集$\mathbf{y}$，通常默认为`{safe, unsafe}`。总体而言，我们的安全奖励模型的目标是输入一个元组$(x, r, \mathbf{p})$，并输出一个标签$y \in \mathbf{y}$和一个奖励值$c \in [0, 1]$，指示在对话上下文$x$下，最终回应$r$是否安全。

### 3.2 数据增强

先前的护栏大多在固定策略集上训练，正则化非常有限，这导致模型过拟合训练策略，并在未见策略上表现过度保守。然而，根据第1节的讨论，对于非传统策略，没有可靠的方法来创建准确的标签。为了解决这个问题，我们引入了两种类型的数据增强，两者都能提供可靠的训练信号，而无需人工标注。

#### 可配置安全配置增强

给定在安全配置$\mathbf{p}$下的一个对话$x \odot r$，我们使用一个推理模型来提出两个特定于对话的类别：一个是*正*类别$p^+$，它不在$\mathbf{p}$中，但若添加到配置中会将$x \odot r$标记为`unsafe`；一个是*负*类别$p^-$，它不在$\mathbf{p}$中，但若作为相关类别使用会将$x \odot r$标记为`safe`。然后，我们通过以下方式形成增强配置$\mathbf{p}'$：（i）随机从$\mathbf{p}$中删除类别，如同Llama Guard的做法，以及（ii）可选地插入$p^+$和/或$p^-$（详见附录6）。

令$\mathbf{p}_{\mathrm{rel}}$表示$\mathbf{p}$中被$x \odot r$违反的类别集合。我们通过以下方式分配增强标签$y'$：

$$y' = \begin{cases}
\texttt{unsafe}, & \big(\mathbf{p}_{\mathrm{rel}} \cup \{p^+\}\big) \cap \mathbf{p}' \neq \emptyset, \\
\texttt{safe}, & \text{otherwise.}
\end{cases} \quad (1)$$

与Llama Guard风格的增强不同，这个过程是*双面*的：插入$p^+$可以将原本`safe`的实例转变为`unsafe`，这在我们实验中增加了奖励的散布并改善了校准和成对奖励建模。

参考图注
图2: 典型可配置安全配置的结构，其中可以添加、删除或修改类别。
参考图注
图3: 随着指南严格程度放松，`unsafe`实例的召回率并非单调增加，这促使了统计检验的需要。

#### 严格性

可配置奖励模型用于平衡安全对齐

相似文章

从累积约束到自适应运行时安全控制用于非平稳强化学习

基于语义级奖励的LLM校准

通过自适应安全约束实现非平稳环境下的安全持续强化学习

对齐但脆弱：通过零阶优化增强LLM安全鲁棒性

CR4T：基于重写的青少年大语言模型安全护栏

提交意见反馈