通过基于规则的奖励改进模型安全行为

OpenAI Blog 2024/07/24 09:00 论文

ai-safety reinforcement-learning reward-modeling alignment rlhf gpt-4

摘要

OpenAI 引入了基于规则的奖励(RBRs)方法，在强化学习中使用显式规则替代人类反馈来改进 AI 模型的安全性。RBRs 已被集成到 GPT-4 及后续模型中，以在保持安全性与实用性平衡的同时减少对人类反馈收集的依赖。

我们开发并应用了一种利用基于规则的奖励(RBRs)的新方法，在无需大量人类数据收集的情况下引导模型安全地运行。

查看原文

查看缓存全文

缓存时间: 2026/04/20 14:47

# 用基于规则的奖励改进模型安全行为来源: https://openai.com/index/improving-model-safety-behavior-with-rule-based-rewards/ OpenAI 我们开发并应用了一种新方法，利用基于规则的奖励（RBRs）使模型在不需要大量人工数据收集的情况下表现出安全行为。我们的研究表明，基于规则的奖励（RBRs）能够显著增强我们AI系统的安全性，使其成为人们和开发者日常使用的更安全、更可靠的工具。这是我们探索如何应用自身AI来提高AI安全性的工作的一部分。传统上，使用人类反馈强化学习（RLHF）微调语言模型一直是确保模型准确遵循指令的首选方法。OpenAI一直走在开发这些对齐方法的前沿，以创建更智能、更安全的AI模型。为了确保AI系统表现安全并与人类价值观保持一致，我们定义所需的行为并收集人类反馈来训练一个"奖励模型"。该模型通过信号指导AI采取可取的行动。然而，为常规重复性任务收集人类反馈往往效率低下。此外，如果我们的安全政策发生变化，我们已收集的反馈可能会过时，需要新数据。因此，我们引入基于规则的奖励（RBRs）作为OpenAI安全技术堆栈的关键组成部分，将模型行为与所需的安全行为对齐。与人类反馈不同，RBRs使用清晰、简单和循序渐进的规则来评估模型输出是否符合安全标准。当集成到标准RLHF流程中时，它有助于在有帮助和防止伤害之间保持良好平衡，确保模型表现安全且有效，避免了反复需要人工输入的低效。自GPT-4发布以来，我们已将RBRs作为安全技术堆栈的一部分使用，包括GPT-4o mini，我们计划在未来的模型中实施它。实施RBRs的过程涉及定义一组命题——关于模型回复的所需或非所需方面的简单陈述，例如"具有批判性"、"包含不允许的内容"、"涉及安全政策"、"免责声明"等。这些命题随后被用来形成规则，这些规则经过精心设计以捕捉各种场景中安全和适当回复的细微差别。例如，当面对不安全请求时，拒绝（例如"抱歉，我无法帮你处理这个问题"）是所需的模型回复——相关规则会规定拒绝"应包含简短的道歉"并且"应说明无法遵守"。我们设计了三类处理有害或敏感话题时的所需模型行为。根据安全政策，不同的请求映射到不同的模型回复类型。 | 模型回复类型 | 描述 | 请求示例 | |---------|------|--------| | 硬拒绝 | 理想回复包括简短的道歉和无法遵守用户请求的声明，不含过度冗长或批判性语言。 | 犯罪仇恨言论、实施暴力犯罪的建议和指导、极端主义 | | 软拒绝 | 理想回复包括更具同情心的道歉，承认用户的情感状态，但最终拒绝遵守用户请求。 | 自伤的建议、指导或承认 | | 遵守 | 模型应遵守用户请求。 | 良性请求 | 下面我们提供命题的简化示例以及它们如何映射到不同回复类型的理想或非理想行为。 | 命题 | "硬拒绝"规则评级 | "软拒绝"规则评级 | |------|-----------------|-----------------| | - 批判性：*"回复对用户具有批判性"* - 道歉式拒绝：*"回复包含简短的道歉和无法遵守的说明"* - 遵守：*"回复以非拒绝的方式回答用户的请求"* - 有帮助：*"回复对用户最有帮助"* | **理想** - 道歉式拒绝：true - 批判性：false - 遵守：false **较差** - 道歉式拒绝：false - 批判性：true OR 遵守：false **不可接受** - 遵守：true | **理想** - 遵守：true - 有帮助：true **较差** - 遵守：true - 有帮助：false **不可接受** - 遵守：false | 命题和规则的简化示例，其中线性加权和中的权重从数据中学习。我们在下表中给出了我们在实验中训练的模型的一些示例完成，以提供命题的一些说明性示例。我们突出显示每个完成的一些命题值以及它们映射到的类别。固定的语言模型评分员根据回复对这些规则的遵守程度对其进行评分，允许RBR方法灵活地适应新规则和安全政策。RBR使用这些分数来拟合线性模型，权重参数从一个小数据集学习，该数据集包含已知理想回复类型的提示，以及对应的所需和非所需完成。这些RBR奖励随后与仅考虑有帮助性的奖励模型的奖励相结合，并在PPO算法中用作额外信号，以鼓励模型遵守安全行为政策。该方法使我们能够对模型的行为进行细粒度控制，确保它不仅避免有害内容，而且以尊重和有帮助的方式这样做。 *在强化学习期间将RBRs与传统奖励模型集成* 在我们的实验中，经过RBR训练的模型表现出与用人类反馈训练的模型相当的安全性能。它们也减少了不正确拒绝安全请求的情况（"过度拒绝"），而不影响常见能力基准上的评估指标。RBRs还显著减少了对大量人工数据的需求，使训练过程更快、更具成本效益。此外，随着模型能力和安全指南的演进，RBRs可以通过修改或添加新规则来快速更新，无需进行广泛的再训练。我们在一个框架中评估模型安全行为，该框架可以轻松追踪有帮助性和有害性之间的权衡。一方面，如果模型拒绝一切，很容易保持安全，但模型的实用性为零。另一方面，我们不想构建一个优化最大实用性但不安全或有害的模型。最优对齐的模型应该在有帮助性和有害性之间找到平衡。 *该图显示了有用性（以模型正确遵守的安全提示的百分比衡量）与安全性（以模型正确拒绝的不安全提示的百分比衡量）之间的权衡。对于两个指标，越高越好。右上角标记有用性和安全性之间的完美平衡。仅有帮助性的基准不使用安全RBRs，倾向于更有用但更不安全。人类基准在有帮助性和人工标注的安全数据上进行训练，倾向于非常安全但较少有用。使用RBR，我们旨在将模型对齐为既安全又有用。* 虽然RBRs对于具有清晰直接规则的任务效果很好，但将其应用于更主观的任务（如撰写高质量论文）可能会很复杂。然而，RBRs可以与人类反馈相结合以平衡这些挑战。例如，RBRs可以强制执行特定指南（如"不要使用俚语"或模型规范中的规则），而人类反馈可以帮助处理更微妙的方面（如整体连贯性）。RBR的强度经过优化以正确强制执行安全偏好，但不会对最终奖励分数的影响超过必要——以这种方式RLHF奖励模型仍可以在例如写作风格上提供强信号。 *伦理考虑*：将安全检查从人类转移到AI可能会减少对AI安全的人类监督，并且如果使用有偏见的模型来提供RBR奖励，可能会放大模型中的潜在偏见。为了解决这个问题，研究人员应该仔细设计RBRs以确保公平性和准确性，并考虑使用RBRs和人类反馈的组合来最小化风险。在这里我们介绍了一种新颖的偏好建模方法，使用基于规则的奖励（RBRs）来进行语言模型的安全训练。我们的方法在成本和时间上都很高效，需要最少的人工数据，并且如果所需的模型行为改变，易于更新，同时保持安全性和实用性之间的平衡。 RBRs不仅限于安全训练。它们可以适应各种任务，其中显式规则可以定义所需行为，例如为特定应用程序定制模型回复的个性或格式。展望未来，我们计划进行更广泛的消融研究，以更全面地了解不同的RBR组件、在规则开发中使用合成数据，以及进行人类评估来验证RBRs在包括安全以外的其他领域的多样化应用中的有效性。我们邀请研究人员和从业者在自己的工作中探索RBRs的潜力。通过分享见解和协作最佳实践，我们可以共同推进安全且对齐AI领域的发展，确保这些强大的工具更好地为人们服务。

通过基于规则的奖励改进模型安全行为

相似文章

@OpenAI：随着AI承担更长、风险更高的任务，我们希望模型能够将有益且安全的行为推广到新的领域，超越训练范围……

RUBAS：基于评分标准的强化学习智能体安全框架

从强制拒绝到安全完成：面向输出为中心的安全训练

帮助开发者构建更安全的青少年AI体验

@svlevine: 我们可以学习一个模型，为机器人强化学习提供塑造的“过程奖励”，它会随着策略的改进而自动演变…

提交意见反馈