与美国 CAISI 和英国 AISI 合作构建更安全的 AI 系统

OpenAI Blog 新闻

摘要

OpenAI 宣布与美国 CAISI 和英国 AISI 开展协作安全改进,强调联合红队测试工作通过多学科网络安全和 AI 代理安全方法,发现并帮助修复 ChatGPT Agent 系统中的新型漏洞。

OpenAI 分享了与美国 CAISI 和英国 AISI 合作的进展,以加强 AI 安全和安保。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 14:49

# 与美国 CAISI 和英国 AISI 合作构建更安全的 AI 系统 来源: https://openai.com/index/us-caisi-uk-aisi-ai-update/ 我们很荣幸继续推动 AI 能力和安全的前沿发展。开发和部署安全且实用的 AI 是我们确保 AGI 造福全人类这一使命的核心。其中关键是我们与美国和英国的研究和标准机构的合作,他们也致力于确保 AI 在各自国家的安全部署。 我们是首批与美国 AI 标准和创新中心 (CAISI) 和英国 AI 安全研究所 (UK AISI) 达成自愿协议的公司之一。这些合作伙伴关系反映了我们的信念,即前沿 AI 开发必须与具有机器学习、国家安全和计量学深厚专业知识的盟国政府密切合作。 今天,我们分享这些自愿合作如何在我们现有安全方法基础上进行扩展,以在实践中取得切实安全改进的例子:对生物滥用防护的联合红队测试、产品安全问题的端到端测试,以及解决相关漏洞的快速反馈循环。结果是对广泛使用的 AI 产品的更强大保护,提高了整个行业的标准,增加了 AI 的采用,并展示了政府和行业如何合作评估和改进 AI 系统的安全性。 ## 与 CAISI 的合作 一年多以来,OpenAI 与 CAISI 合作,评估 OpenAI 模型在网络、化学-生物和其他国家安全相关领域的能力。我们最近扩展了合作范围,以包括新兴产品安全挑战,并与 CAISI 合作红队测试 OpenAI 代理 AI 系统的安全性。在 7 月进行的一种新型合作中,OpenAI 与 CAISI 合作探索我们如何与外部评估者合作,以发现并修复代理系统(如 OpenAI ChatGPT Agent 产品)中的安全漏洞。 这次与 CAISI 的合作是进入代理系统红队测试这一新领域的初步尝试。我们目标是继续在此领域的合作,我们与 CAISI 的工作建立在其他部署安全措施基础之上,包括我们自己的内部测试。 CAISI 的一支专家团队结合了网络安全和 AI 代理安全方面的专业知识,致力于调查和识别这些系统中的新漏洞。CAISI 获得了 ChatGPT Agent 的早期访问权,这帮助团队建立了对系统架构的早期理解,随后团队对发布的系统进行了红队测试。 在持续的探测中,CAISI 发现了 ChatGPT Agent 中的两个新颖安全漏洞,在特定情况下,可能允许老练的攻击者绕过我们的安全保护,远程控制代理可以访问的计算机系统,并成功冒充用户登录的其他网站。 由于 OpenAI 产品设计中的安全措施,CAISI 最初认为他们发现的漏洞是不可利用的,因此对攻击者无用。但经过进一步分析,CAISI 找到了一种方法,通过将这些传统网络漏洞与 AI 代理劫持攻击相结合来绕过 OpenAI 系统的安全保护。CAISI 开发的概念验证攻击成功绕过了各种基于 AI 的安全保护,导致了一个成功率约为 50% 的完整漏洞利用链。CAISI 团队的多学科方法使他们能够开发出复杂的漏洞利用链,结合了传统软件漏洞和 AI 漏洞。作为 AI 系统如何成为安全测试宝贵工具的例子,CAISI 利用 ChatGPT Agent 本身来帮助发现这些漏洞的过程。 这些攻击立即向 OpenAI 报告,并在一个工作日内由 OpenAI 修复。 OpenAI 和 CAISI 之间的这种自愿合作建立在我们为期一年的研究和评估合作基础上。发现这些漏洞需要 CAISI 在链接多个漏洞和组合攻击方面的创新,以开发危害 AI 系统的新颖方式,借鉴了网络安全和机器学习的方法。AI 代理安全和传统网络安全的交叉点将需要构建一系列新的最佳实践,CAISI 在改进评估科学和 AI 系统安全方面的合作已经直接让这些系统的最终用户受益。 ## 与 UK AISI 的合作 我们的代理防护措施还纳入了我们为防止生物滥用而进行的大规模投资中学到的经验,其中包括与包括 UK AISI 在内的第三方的一系列合作来红队测试这些防护措施。 作为我们与 UK AISI 进行的持续合作的一部分,UK AISI 从 5 月开始红队测试我们的生物滥用防护措施(如 OpenAI 政策所定义),包括 ChatGPT Agent 和 GPT-5 中的防护措施。与某个具体发布挂钩不同,这是一种持续改进防护措施栈有效性的持续合作。 作为这一合作的一部分,UK AISI 获得了对我们系统的深入访问权,由 OpenAI 的定制工作支持,允许更深度的定制和安全性。这包括: - 我们防护系统的非公开原型 - "仅帮助"模型变体,其中移除了某些防护措施 - OpenAI 关于生物滥用的内部政策指导 - 访问 OpenAI 内部安全监控模型的思维链,以更有效地识别漏洞 - 在测试期间有选择地禁用某些缓解措施和执行,以探测系统的子组件 UK AISI 的一支多学科团队结合了 AI 红队测试技术和生物安全领域的专业知识,随后寻求发现针对 OpenAI 生物安全防护措施的通用越狱。UK AISI 团队带来了深厚的技术测试专业知识,例如利用系统设计见解创建攻击,为合作的成功奠定了坚实基础。 这次合作跨越了部署系统的所有方面,从单个模型响应到端到端产品体验。这个过程通过迭代进行:UK AISI 会探测 OpenAI 的原型系统,OpenAI 作为响应加强防护措施,然后测试重复进行。 快速反馈循环是这项工作的核心。从 5 月开始,并持续到 7 月 ChatGPT Agent 的发布和 8 月 GPT-5 的发布,UK AISI 和 OpenAI 团队进行了频繁的临时会议,大约每周一次,包括与技术团队的直接协作,以更好地理解和解决具体问题。OpenAI 还根据 UK AISI 的测试结果创建了特定的定制配置,以实现更好的测试。 在这个过程中,UK AISI 发现了 12 份以上的详细漏洞报告,OpenAI 对这些进行了分类。其中一些导致了基于工程的产品修复,一些导致了政策执行实现修复,一些导致 OpenAI 对改进某些分类器方面进行了重点培训。例如:OpenAI 通过改进和针对 UK AISI 识别的一组通用越狱对监控系统进行测试,改进了我们监控栈的鲁棒性,这些越狱是通过人工红队测试和自动化攻击技术发现的。此外,端到端测试组件证明特别有益。OpenAI 对我们的产品配置进行了一系列改进,以修复 UK AISI 识别的一组配置漏洞,其中恶意内容可能被输入或泄露,而不会触发审核。 我们的紧密合作意味着 UK AISI 受益于访问非公开工具(如监控的思维链)、非公开信息(如防护措施设计的详情),以及禁用 OpenAI 的账户执行封禁系统。这些是真实攻击者无法访问的资源和条件。这实现了更高效的红队测试,并意味着 UK AISI 能够发现某些失败,这些失败对于没有此访问权和技术专业知识水平的恶意用户来说会更加困难。 UK AISI 的看法是,在合作过程中,完整审核系统的防护措施得到了大幅加强。在快速迭代期即将结束时,发现规避完整审核栈的通用攻击需要复杂的技术和在开发过程中的大量审核标记。这意味着使用监控可能会标记任何试图开发漏洞利用的恶意行为者,并最终导致从平台的封禁。 上述工作补充了我们为生物防护措施进行的其他内部和外部压力测试,包括跨三个不同防护措施测试活动的广泛测试(5000+ 小时),以及与各种其他第三方合作伙伴的合作。(有关更多信息,请参阅 GPT-5 和 ChatGPT Agent 系统卡。) ## 主要收获 - 这些合作代表了一些对评估真实前沿 AI 系统的安全性和防止滥用的最深入的公私合作,我们希望它们能够作为该领域的有前景的模式。 - 与合作伙伴政府的协作使我们能够利用其国家安全专业知识,同时与政府分享前沿技术的最新进展。这种实际操作经验反过来使合作伙伴政府能够制定技术基础良好的最佳实践,这些实践加速了整个 AI 行业的创新和安全。 - 这次合作导致了世界上一些使用最广泛的 AI 系统的安全性有意义的改进。 - 我们系统安全的外部专家分析帮助我们发现可能忽视的问题,并为我们的系统建立问责和信任。 - 持续的合作可以比一次性的部署前评估更深入,并产生更大的价值。 CAISI 和 UK AISI 带来的 AI 和国家安全领域的技术专业知识对这些合作至关重要,并导致了对我们防护措施和产品安全的有意义的改进。与具有资源和激励以严格评估 AI 系统的组织的紧密技术合作,加强了对我们系统安全性的信心。

相似文章

通往AGI之路中的安全保护

OpenAI Blog

OpenAI 概述了在通往 AGI 过程中的全面安全措施,包括由 AI 驱动的网络防御、与 SpecterOps 的持续对抗性红队测试,以及为 Operator 等新兴 AI 代理设计的安全框架。该公司强调主动威胁检测、业界合作,以及安全措施与基础设施和模型的深度集成。

深化与英国人工智能安全研究所的合作

Google DeepMind Blog

Google DeepMind宣布通过一份新的谅解备忘录,扩大与英国人工智能安全研究所(AISI)的合作伙伴关系,以深化在AI安全、安保及风险缓解方面的合作研究。

随着AI能力提升,强化网络防御能力

OpenAI Blog

OpenAI 发布了一套管理AI模型网络能力的综合框架,指出在 CTF 性能上取得了显著进步(从 GPT-5 的 27% 提升到 GPT-5.1-Codex-Max 的 76%),并概述了纵深防御措施,以确保先进模型主要造福防御方,同时限制恶意使用。

智能时代的网络安全

OpenAI Blog

OpenAI发布了一份全面的行动计划,旨在普及AI驱动的网络防御,并与政府及行业合作应对不断演变的网络威胁。

我们对社区安全的承诺

OpenAI Blog

OpenAI 阐述了其对社区安全的承诺,详细介绍了 ChatGPT 如何通过完善的安全防护措施和专家意见来检测和降低暴力与伤害风险。