从强制拒绝到安全完成:面向输出为中心的安全训练

OpenAI Blog 论文

摘要

# 从强制拒绝到安全完成:面向输出为中心的安全训练 来源: [https://openai.com/index/gpt-5-safe-completions/](https://openai.com/index/gpt-5-safe-completions/) OpenAI在 GPT-5 中引入的安全完成是一种新的安全训练方法,可在安全约束范围内最大化模型的实用性。与基于拒绝的训练相比,安全完成提高了安全性和实用性,特别是在双用途领域。**如果用户要求 ChatGPT 提供最小能量

了解 OpenAI 在 GPT-5 中的新型安全完成方法如何改进 AI 响应的安全性和实用性——超越强制拒绝,实现细致的、以输出为中心的安全训练,用于处理双用途提示。
查看原文
查看缓存全文

缓存时间: 2026/04/20 14:53

# 从硬性拒绝到安全完成:面向输出的安全训练 来源:https://openai.com/index/gpt-5-safe-completions/ OpenAI在GPT-5中引入了安全完成,这是一种新的安全训练方法,旨在在安全约束条件下最大化模型的实用性。与基于拒绝的训练相比,安全完成既改进了安全性,也提高了实用性,特别是在双重用途领域。 **如果用户向ChatGPT询问点燃烟火表演所需的最少能量,它应该给出有帮助的答案吗?** 用户可能是在为7月4日的表演做准备,或者为学校研究项目...或者制造炸药。因此,给出有帮助的答案可能无害,也可能有害,这取决于用户的(表观)意图。这类提示是*双重用途的*:意图不明确的问题,其中信息可能被用于善意或恶意的目的。双重用途问题在生物学和网络安全等风险领域尤为普遍。 过去,ChatGPT等生产模型依靠基于拒绝的安全训练:根据用户的提示,模型应该要么完全遵守,要么拒绝。虽然这种训练对于明显有害的提示效果很好,但在处理像烟火例子这样的双重用途提示时可能会遇到困难。在这种情况下,经过拒绝训练的模型会根据其感知的提示有害程度做出二元决策——要么完全遵守(如果用户想恶意使用信息,可能很危险),要么拒绝并说"抱歉,我无法帮助"(如果用户真的想修理烟火表演,就没有帮助)。 对于GPT-5,我们引入了一种新形式的安全训练——安全完成——教导模型在可能的情况下给出最有帮助的答案,同时仍然保持安全边界。我们发现这种方法更加细致,能更好地处理双重用途问题。 安全完成将安全训练的重点放在模型*输出*的安全性上,而不是根据用户的*输入*确定拒绝边界。具体来说,这通过两个训练参数实现: - **安全约束**:在后训练期间,安全完成奖励会对违反我们安全政策的模型响应进行惩罚(根据违规的严重程度进行更强的惩罚)。 - **实用性最大化**:对于安全的模型响应,我们根据其实用性对模型进行奖励:要么直接根据用户陈述的目标,要么间接地通过提供信息丰富的拒绝和有用且安全的替代方案。 我们将安全完成纳入GPT-5(推理和聊天模型),发现与基于拒绝的训练相比,安全完成训练显著改进了*安全性和实用性*。为了与OpenAI o3进行公平比较,我们报告了GPT-5 Thinking相对于o3的性能。在生产模型比较和对照实验中,我们发现安全完成特别适合双重用途问题。下图比较了安全响应的安全得分和平均实用性得分。 按意图分类的安全响应的安全性和实用性(OpenAI o3与GPT-5 Thinking,标记为gpt5-r)。GPT-5 Thinking比OpenAI o3更安全且更有帮助。 通过放弃遵守/拒绝的二元决策,安全完成训练鼓励我们的模型在遵守时对潜在的不安全内容更加谨慎。在我们的实验中,我们发现当安全完成模型*确实*犯错时,其不安全输出的严重程度低于基于拒绝训练的模型的不安全输出。 不安全响应的伤害严重程度分析(o3与GPT-5 Thinking,标记为gpt5-r)。GPT-5 Thinking犯的错误不如o3严重。 很容易用实用性换取安全性——如果模型拒绝一切,它可以是安全的。但我们希望我们的模型既安全*又*有帮助。一个核心研究挑战是如何同时改进这两个目标。对于GPT-4,我们开发了[基于规则的奖励](https://openai.com/index/improving-model-safety-behavior-with-rule-based-rewards/)作为权衡实用性和安全性的方法。现在,对于GPT-5,安全完成更进一步,利用日益增长的AI能力提供了这两个目标的更深层整合。我们相信关注模型响应的安全性为解决地平线上日益复杂的安全挑战奠定了坚实的基础,我们计划继续这一研究方向,以教导模型更好地理解具有挑战性的情况,并以更大的细致性和关怀做出反应。

相似文章

通过基于规则的奖励改进模型安全行为

OpenAI Blog

OpenAI 引入了基于规则的奖励(RBRs)方法,在强化学习中使用显式规则替代人类反馈来改进 AI 模型的安全性。RBRs 已被集成到 GPT-4 及后续模型中,以在保持安全性与实用性平衡的同时减少对人类反馈收集的依赖。

帮助开发者构建更安全的青少年AI体验

OpenAI Blog

OpenAI发布了基于提示的安全策略和开放权重的gpt-oss-safeguard模型,帮助开发者构建适合青少年的AI体验,涵盖图形内容、有害行为和危险活动等风险。

Safety Gym

OpenAI Blog

OpenAI 推出 Safety Gym,这是一个新的基准环境和工具包,用于研究受约束的强化学习和安全探索。该平台包含多个机器人和任务,旨在通过成本函数与奖励函数一起量化和衡量安全探索。

超越安全数据:使用正则安全反射的预训练阶段对齐

arXiv cs.AI

本文提出安全反射预训练(Safety Reflection Pretraining)方法,通过将正则安全反射集成到预训练语料中,直接将自我监控嵌入语言建模,实验表明在1.7B模型中提升了安全对齐效果并降低了攻击成功率。