通过外部测试强化我们的安全生态系统
摘要
OpenAI宣布通过外部第三方测试和评估前沿AI模型来加强安全生态系统,包括独立评估、方法论审查和领域专家探测。该公司承诺通过公开分享第三方评估结果和自GPT-4推出以来支持独立评估来提高透明度。
OpenAI与独立专家合作评估前沿AI系统。第三方测试增强了安全性,验证了防护措施,并提高了我们评估模型能力和风险方式的透明度。
查看缓存全文
缓存时间: 2026/04/20 14:49
# 通过外部测试加强我们的安全生态系统
来源:https://openai.com/index/strengthening-safety-with-external-testing/
在OpenAI,我们相信独立、可信的第三方评估在加强前沿AI安全生态系统中起着至关重要的作用。第三方评估是针对前沿模型进行的评估,用于确认或提供关于关键安全能力和缓解措施的额外证据。这些评估有助于验证安全声明、防止认识盲点,并提高对能力和风险的透明度。通过邀请外部专家测试我们的前沿模型,我们还旨在培养对我们能力评估和保障措施深度的信任,并帮助提升更广泛的安全生态系统。
自GPT-4发布以来,OpenAI与一系列外部合作伙伴合作以测试和评估我们的模型。总的来说,我们的第三方合作采取三种形式:
- **关键前沿能力和风险领域的独立评估**,如生物安全、网络安全、AI自我改进和欺骗行为
- **方法论审查**,评估我们如何评估和解释风险
- **主题专家(SME)探测**,专家直接在真实世界的SME任务上评估模型,并对我们对其能力和相关保障措施的评估提供结构化意见[1](https://openai.com/index/strengthening-safety-with-external-testing/#citation-bottom-1)
本博文介绍了我们如何使用这些形式的外部评估、为什么它们很重要、它们如何影响部署决策,以及我们用来构建这些合作的原则。本着透明精神,我们还分享了更多关于管理我们与第三方测试者合作的保密性和发表条款的信息。
第三方评估者在我们内部工作的基础上增加了独立的评估层,加强了严谨性,并针对自我确认提供了额外保护。他们的意见与我们自己的评估一起提供了额外证据,帮助为强大系统的负责任部署做出决策。
我们还将第三方评估视为[构建弹性安全生态系统](https://openai.com/index/ai-progress-and-recommendations/)的一部分。我们的团队在能力和风险领域进行广泛的内部测试,但独立组织带来了额外的观点和方法论方法。我们致力于支持能够定期与我们一起评估前沿模型的合格评估者组织的多样化群体。
最后,我们的目标是对这一意见如何塑造我们的安全流程保持透明。我们定期公开第三方评估——例如,通过在系统卡中包含部署前评估的总结,以及支持评估者组织在保密性和准确性审查后发布更详细的工作。这种透明度通过展示外部意见如何塑造我们的能力评估和保障措施来建立信任。
建立在可信访问、透明度和知识共享基础上的持续关系有助于整个生态系统保持领先于新兴风险,并促进前沿AI系统更强标准和更明智治理所需的可适应的、可行的评估。
从GPT-4的发布开始(在新窗口打开)(https://cdn.openai.com/papers/gpt-4-system-card.pdf),我们在部署前支持对早期模型检查点的独立评估。从那时起,我们与一系列在关键前沿能力和风险领域具有深厚专业知识的第三方组织扩展了我们的工作。我们将独立实验室工作的范围界定为开放式测试,其中外部团队应用自己的方法来提出与特定前沿能力相关的声明或评估。
例如,对于GPT-5,OpenAI协调了一系列外部能力评估,涵盖长期自主性、欺骗行为、欺骗和监督规避、湿实验室规划可行性和主动网络安全评估等关键风险领域。
为了支持这些评估,我们提供了对早期模型检查点的安全访问、选定的评估结果以具体化我们看到的能力改进、在需要时的零数据保留,以及具有较少缓解措施的模型。例如,在网络安全和生物安全领域进行测试的组织测试了具有和不具有安全缓解措施的模型,以探测基础能力。其他几个组织获得了直接的思维链访问权限,使他们能够检查模型的推理轨迹。这一增加透明度的步骤使评估者能够识别可能只能通过阅读思维链才能分辨的沙盘囤积[2](https://openai.com/index/strengthening-safety-with-external-testing/#citation-bottom-2)或欺骗行为。访问权限与安全控制一起提供,随着模型能力和测试需求的演变,我们继续更新这些控制。
在某些情况下,外部评估者可以很好地提供方法论审查,为前沿实验室依赖的框架和证据提供额外观点以评估风险。例如,在gpt-oss的发布期间,我们使用对抗性微调来估计开放权重模型的最坏情况能力,如[估计开放权重LLM的最坏情况前沿风险](https://openai.com/index/estimating-worst-case-frontier-risks-of-open-weight-llms/)中所述。核心安全问题是恶意行为者是否可以微调模型在我们的准备框架下在生物或网络等领域达到高能力。由于这需要资源密集的对抗性微调,我们邀请第三方评估者审查和提出关于我们内部方法和结果的建议,而不是重复类似工作。
这涉及一个多周的过程,包括分享评估推出、对抗性微调方法的详细信息,以及收集关于改进最坏情况前沿风险的方法论和评估的结构化建议。评估者的反馈导致了最终对抗性微调过程中的更改,并展示了方法论确认的价值。我们在论文和gpt-oss系统卡中记录了我们采纳的项目,并为我们没有采纳的项目提供了理由。
在这里,方法论审查是正确的选择,而不是独立评估:评估涉及运行大规模的最坏情况实验,这需要主要AI实验室之外通常无法获得的基础设施和技术专业知识。这意味着独立评估可能无法直接导致对最坏情况的见解,更高效的做法是让外部评估者专注于声明的确认。外部评估者[审查了方法和证据](https://metr.org/blog/2025-10-23-gpt-oss-methodology-review/),强调了在建议反馈循环中解决的与决策相关的差距。这种方法是我们希望在其他领域扩展的方法,在这些领域访问或基础设施需求使得第三方直接运行评估不切实际,或者外部评估可能还不存在。
我们与外部专家合作的另一种方式是通过主题专家(SME)探测,专家直接评估模型,并通过调查提供结构化意见,用于我们对其能力的评估。这不同于[红队测试](https://openai.com/index/advancing-red-teaming-with-people-and-ai/),后者旨在对特定保障措施进行压力测试。这使我们能够用反映专家判断和静态评估可能无法捕获的真实世界背景的领域特定见解来补充准备框架评估。例如,我们邀请了一组主题专家使用仅有帮助的模型[3](https://openai.com/index/strengthening-safety-with-external-testing/#citation-bottom-3)为ChatGPT Agent和GPT-5尝试他们自己的端到端生物场景。他们根据模型在其场景中提供的指导的有用性,评分了该模型与他们自己这样的专家相比,对经验较少的新手能够提升多少。目标是收集关于系统如何能够将受激励的新手实质性地推向能干执行的额外意见:SME在他们提出的现实工作流下对我们的"新手提升"声明进行了压力测试,并就模型提供实质性、步骤级帮助与较少有用的总结的位置提供了详细反馈。这项专家探测练习被纳入了这些模型部署的整体评估中,并在两个发布的系统卡中分享。
本着透明精神,我们分享了更多关于第三方评估者与我们合作时同意的内容,以及指导我们合作的原则:
- **透明性与谨慎的保密边界**:第三方评估者签署保密协议,以便分享支持其评估的机密、非公开信息。在本文章的[附录](https://openai.com/index/strengthening-safety-with-external-testing/#appendix)中,我们包括了与第三方评估者合同中的相关摘录,概述了围绕发表的权利和审查期望。我们基于透明原则运作,致力于实现推进安全和相关评估理解的发表,而不会危害机密信息或知识产权。作为其中的一部分,我们审查并批准来自第三方评估的出版物,以确保保密性和事实准确性。在过去几年中,几个第三方评估者在我们在系统卡中审查发布后发表了他们的工作以及我们自己的评估总结的发表。已在我们审查其保密性和准确性后发表的工作示例包括:[METR GPT-5报告](https://evaluations.metr.org/gpt-5-report/)(在新窗口打开)、[Apollo Research关于OpenAI o1的报告](https://evaluations.metr.org/gpt-5-report/)(在新窗口打开)、[Irregular GPT-5评估](https://www.irregular.com/publications/evaluating-gpt-5)(在新窗口打开)
- **周到的信息披露和安全的敏感访问**:默认情况下,我们提供旨在公开或生产就绪的信息和模型访问。当评估需要时,我们提供更深层次的访问,例如仅有帮助的模型或非公开信息。OpenAI为关键安全问题的第三方评估者提供了这些形式的访问。重要的是,这些类型的敏感访问需要严格的安全措施,随着模型能力和测试需求的演变,我们继续更新这些控制。
- **平衡的财务激励**:我们认为确保第三方评估生态系统资金充足和可持续很重要。因此,我们向所有第三方评估者提供补偿,有些人根据其组织哲学选择拒绝。补偿形式包括直接工作报酬和/或通过API积分或其他方式补贴模型使用成本。任何支付都不会以第三方评估的结果为条件。
这些因素共同帮助第三方评估既保护敏感信息,又在AI安全中促进透明度,并为第三方评估者创造了因其时间而获得补偿的途径。
展望未来,我们看到需要继续加强能够对前沿AI系统进行可信、与决策相关的评估的组织生态系统。有效的第三方评估需要专业知识、稳定的资金和方法论严谨性。对合格评估者组织的持续投资、测量科学的进步和敏感访问的安全将是确保评估能够跟上模型能力进步的关键。
第三方评估是我们将外部观点引入安全工作的一种方式,它们与其他机制并行运作。我们还通过结构化红队测试、[集体对齐项目](https://openai.com/index/collective-alignment-aug-2025-updates/)、与[美国CAISI和英国AISI](https://openai.com/index/us-caisi-uk-aisi-ai-update/)的工作,以及咨询小组(如我们的[全球医生网络](https://openai.com/index/building-more-helpful-chatgpt-experiences-for-everyone/)和我们的[幸福感与AI专家委员会](https://openai.com/index/expert-council-on-well-being-and-ai/))与外部专家合作,以指导我们在心理健康和用户幸福感方面的工作。这些努力贡献了不同形式的专业知识,并为评估和治理高级AI系统提供了更广泛、更可靠的基础。
以下是我们与在部署前评估上与我们合作的第三方协议的说明性摘录。
相似文章
OpenAI 和 Anthropic 分享联合安全评估的研究成果
OpenAI 和 Anthropic 发布了首次联合安全评估的研究成果。在这次评估中,两家实验室分别对彼此的模型进行了内部安全和对齐性测试,并公开分享了结果,以提高透明度并发现 AI 安全测试中的潜在漏洞。
加强我们的前沿安全框架
DeepMind 发布了第三版前沿安全框架,扩展了风险范围以包括有害操纵和不对齐风险,并完善了风险评估流程和高级 AI 模型的治理协议。
OpenAI 安全实践
OpenAI 介绍了其积极采用并不断改进的 10 项安全实践,包括实证红队测试、对齐研究、滥用监控以及在首尔 AI 峰会上分享的自愿承诺。该公司强调采用均衡、科学的安全方法,将其融入开发的各个环节。
@OpenAI: 我们也有三家第三方AI安全组织对我们的分析提供了反馈:@redwood_ai, @apolloaievals, @M…
OpenAI在强化学习训练中意外允许评分人员看到思考链;Redwood Research审阅其分析后发现,证据在很大程度上消除了对危险影响的担忧,但仍存在轻微风险。
GPT-4o 系统卡外部测试人员致谢
OpenAI 发布了对为 GPT-4o 安全测试和系统卡开发做出贡献的外部红队测试人员和评估人员的致谢。该文档表彰了众多个人研究人员和组织,包括 METR 和 Apollo Research。