推出 gpt-oss-safeguard
摘要
OpenAI 发布 gpt-oss-safeguard,这是用于安全分类任务的开源权重推理模型,提供 120B 和 20B 两种规格,采用 Apache 2.0 许可证。这些模型使用链式思维推理,在推理时根据开发者提供的策略对内容进行分类,实现灵活且可解释的内容审核。
OpenAI 推出 gpt-oss-safeguard——用于安全分类的开源权重推理模型,让开发者能够应用和迭代自定义策略。
查看缓存全文
缓存时间:
2026/04/20 14:49
# 介绍 gpt-oss-safeguard
来源:https://openai.com/index/introducing-gpt-oss-safeguard/
今天,我们发布了 gpt-oss-safeguard 的研究预览版,这是我们用于安全分类任务的开放权重推理模型,提供两种规格:gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b。这些模型是我们 [gpt-oss](https://openai.com/index/introducing-gpt-oss/) 开放模型的微调版本,采用同样宽松的 Apache 2.0 许可证,允许任何人自由使用、修改和部署。两个模型都可以从 [Hugging Face](https://huggingface.co/collections/openai/gpt-oss-safeguard) 下载。
gpt-oss-safeguard 模型使用推理能力在推理时直接解释开发者提供的策略——根据开发者的需求对用户消息、模型回复和完整对话进行分类。开发者始终决定使用什么策略,因此响应更具针对性并符合开发者的使用场景。该模型使用思维链,开发者可以查看以了解模型如何做出决策。此外,策略在推理时提供,而不是被训练到模型中,所以开发者可以轻松迭代修改策略以提高性能。这种方法最初是为内部使用而开发的,相比传统的通过大量标记样本训练分类器的方法,灵活性显著提高。
gpt-oss-safeguard 使开发者能够制定最适合其用例的策略界限。例如,视频游戏讨论论坛可能想开发一个策略来分类讨论游戏作弊的帖子,或者产品评论网站可能想使用自己的策略来筛选看起来可能是虚假的评论。
该模型同时接收两个输入——一个策略和要在该策略下分类的内容——并输出内容属于哪个类别的结论以及其推理过程。开发者决定如何在自己的安全管道中使用这些结论。我们发现这种基于推理的方法在以下情况下性能特别出色:
- 潜在伤害不断出现或演变,策略需要快速适应。
- 领域高度复杂,小型分类器难以处理。
- 开发者没有足够的样本为每个风险训练高质量的分类器。
- 延迟不如生成高质量、可解释的标签重要。
我们发布 gpt-oss-safeguard 的预览版是为了获得研究和安全社区的反馈,进一步迭代改进模型性能。我们花费数月时间与 [ROOST](https://roost.tools/) 合作开发这个开放权重版本,以了解开发者的关键需求、测试模型并制作开发者文档。作为此次发布的一部分,ROOST 将建立一个[模型社区](https://github.com/roostorg/open-models/),也在今日启动,以探索开放 AI 模型以保护在线空间。随着此次发布,我们发布了一份[技术报告](https://openai.com/index/gpt-oss-safeguard-technical-report),详细介绍了此预览模型的安全性能。
在安全方面,我们相信[纵深防御](https://openai.com/safety/how-we-think-about-safety-alignment/#defense-in-depth)。我们训练模型安全地响应,并实施额外的保护层来检测和处理根据我们的政策可能不安全的输入和输出。安全分类器可以区分特定风险领域中的安全和不安全内容,长期以来一直是我们和其他大型语言模型的主要防御层。
传统的安全分类器(例如通过我们的 [Moderation API](https://platform.openai.com/docs/guides/moderation) 提供的分类器)是通过手动整理数千个安全和不安全内容样本在预定义的安全政策下开发的。从这些训练数据,分类器学会区分安全和不安全的输出。在这种传统方法中,分类器从不实际看到安全政策。相反,它试图通过找到标记为不安全的内容中的相似性以及不安全和安全内容之间的差异来推断用于标记样本的底层策略。
传统分类器可以具有高性能、低延迟和低运营成本。但收集足够数量的训练样本可能很耗时且昂贵,更新或改变策略需要重新训练分类器。
gpt-oss-safeguard 不同之处在于其推理能力使开发者能够应用**任何**策略,包括他们自己编写的或从其他来源获取的策略,推理帮助模型对新编写的策略进行泛化。除了安全政策外,gpt-oss-safeguard 还可用于以对特定产品和平台重要的其他方式标记内容。
我们的主要推理模型现在直接学习我们的安全策略,并使用其推理能力来推理什么是安全的。我们称这种方法为[审议式对齐](https://openai.com/index/deliberative-alignment/),相比早期的安全训练方法有显著改进,并使我们的推理模型在多个方面比其非推理前身更安全,即使其能力在增加。但推理不仅对训练模型本身有用。它还为纵深防御创造了新的可能性。基于推理的方法更灵活,不受之前训练细节的限制,这些优势有时足以弥补所涉及的额外计算成本和延迟。
gpt-oss-safeguard 是我们内部开发的一种方法的开放权重实现,在一个我们称之为 Safety Reasoner 的工具中。我们从强化微调策略标记任务开始,奖励模型镜像来自人类专家的正确判断。这教会了模型如何推理策略如何导致其判断。今天,Safety Reasoner 使我们能够在生产中动态更新安全策略,所需时间比重新训练分类器要少。这使 Safety Reasoner 成为[迭代部署](https://openai.com/safety/how-we-think-about-safety-alignment/#agi-in-many-steps-rather-than-one-giant-leap)的关键工具:当我们向生产部署新模型时,我们通常从更严格的策略开始,并在必要时使用相对大量的计算来使 Safety Reasoner 能够仔细应用这些策略。然后随着我们对生产中风险理解的改进,我们调整我们的策略。在我们最近的一些推出中,用于安全推理的总计算量的比例高达 16%。
Safety Reasoner 已成为我们安全堆栈的核心组件。对于图像生成和 Sora 2,它执行输出的动态逐步评估,以实时识别和阻止不安全的生成。在生物学和自伤等领域,我们运行类似于 Moderation API 中使用的模型作为小型、快速和高召回率的分类器,以确定哪些内容在感兴趣的领域内,然后使用 Safety Reasoner 来审查该内容。Safety Reasoner 针对详细的分类法对模型输出进行分类,以确定最佳响应方式,形成 GPT-5 和 ChatGPT Agent 等系统中的多层防护的一部分。现在,gpt-oss-safeguard 模型使任何人都可以使用这种方法。
我们在内部和外部评估集上评估了 gpt-oss-safeguard 模型。
在内部评估中,我们在推理时同时向 gpt-oss-safeguard 提供多个策略。对于每个测试输入,我们评估 gpt-oss-safeguard 是否在所有包含的策略下正确分类文本。这是一个具有挑战性的任务——只有当模型完全匹配所有包含策略的黄金标签集时,才算准确。
我们的 gpt-oss-safeguard 模型和内部 Safety Reasoner 在多策略准确性上优于 gpt-5-thinking 和 gpt-oss 开放模型。考虑到前者模型的较小规模,gpt-oss-safeguard 模型优于 gpt-5-thinking 特别令人惊讶。
在 2022 年度评估集上,我们使用内部安全策略进行评估(调整一项策略以应对后续变化)。gpt-oss-safeguard 略微优于所有其他测试模型,包括我们的内部 Safety Reasoner 和 gpt-5-thinking,尽管 Safety Reasoner 和 gpt-oss-safeguard 之间的差异在统计上不显著。
对于 ToxicChat,我们使用根据我们一些内部策略改编的简短手写提示进行评估。我们的内部 Safety Reasoner 再次优于 gpt-5-thinking,而 gpt-5-thinking 和 Safety Reasoner 都略微优于 gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b。我们期望 gpt-oss-safeguard 相对较小的规模仍然使其对这类任务更可取。
gpt-oss-safeguard 有两个具体的限制。首先,我们观察到在数万个高质量标记样本上训练的分类器在分类内容方面仍然可以优于 gpt-oss-safeguard 在直接从策略推理时的表现。花时间训练专用分类器可能更适合在更复杂的风险上获得更高的性能。
其次,gpt-oss-safeguard 可能很耗时且计算密集,这使其难以跨所有平台内容扩展。我们在内部使用 Safety Reasoner 以多种方式处理这个问题:(1) 我们使用更小更快的分类器来确定要评估哪些内容,(2) 在某些情况下,我们异步使用 Safety Reasoner 来提供低延迟用户体验,同时保持在检测到不安全内容时进行干预的能力。
gpt-oss-safeguard 是 OpenAI 首批与社区共同构建的开放安全模型。我们与 SafetyKit、ROOST、Tomoro 和 Discord 的信任和安全专家在早期测试中迭代了 gpt-oss-safeguard。ROOST 首席技术官 Vinay Rao 表示,"gpt-oss-safeguard 是首个具有'自带策略和伤害定义'设计的开源推理模型。组织应该能够自由研究、修改和使用关键安全技术并能够创新。在我们的测试中,它在理解不同策略、解释其推理和在应用策略中表现细微差别方面表现出色,我们相信这对构建者和安全团队将有益。"
我们将继续与社区迭代以改进开放安全工具,包括通过 ROOST 模型社区 (RMC)。RMC 汇集安全从业者和研究人员分享将开源 AI 模型实施到安全工作流中的最佳实践,包括评估结果和模型反馈。访问 [RMC GitHub 仓库](https://github.com/roostorg/open-models)了解更多关于此合作的信息以及如何参与。
相似文章
OpenAI Blog
OpenAI 发布了 gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b,这两个开放权重推理模型专为基于策略的内容分类而设计,具有完整的思维链推理能力。技术报告提供了基准安全评估,展示了模型在 Apache 2.0 许可证下的内容标签任务能力。
OpenAI Blog
OpenAI 发布了 gpt-oss-120b 和 gpt-oss-20b,这是两款采用 Apache 2.0 许可证的开权重推理模型,专为智能体工作流设计,具有强大的指令跟随、工具使用和思维链能力。该发布包括全面的安全评估,确认即使在对抗性微调下,这些模型也不会达到生物、化学或网络风险的高能力阈值。
OpenAI Blog
OpenAI 发布 gpt-oss-120b 和 gpt-oss-20b,两款最先进的开放权重语言模型,采用 Apache 2.0 许可证,性能与专有模型相当,可针对消费级硬件和边缘设备进行优化。两款模型均展现出强大的推理和工具使用能力,并进行了全面的安全评估。
OpenAI Blog
OpenAI发布了基于提示的安全策略和开放权重的gpt-oss-safeguard模型,帮助开发者构建适合青少年的AI体验,涵盖图形内容、有害行为和危险活动等风险。
OpenAI Blog
OpenAI发布了GPT-5.4 Thinking,这是GPT-5系列中最新推出的推理模型,具备增强的安全缓解措施,尤其值得一提的是,该模型是首个实现全面网络安全保护措施的通用模型。