持续强化ChatGPT Atlas抵御提示注入攻击

OpenAI Blog 新闻

摘要

OpenAI宣布通过对抗训练和强化防护措施,持续加固ChatGPT Atlas以抵御提示注入攻击,包括建立快速响应循环,在新型攻击策略出现于实际环境前即发现并缓解。

OpenAI正利用基于强化学习的自动红队测试来强化ChatGPT Atlas,以抵御提示注入攻击。这种主动发现并修复的循环有助于在早期识别新型漏洞,并随AI日益具备代理性而加固浏览器代理的防御能力。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 14:52

# 持续加固 ChatGPT Atlas 对抗提示注入攻击 来源:https://openai.com/index/hardening-atlas-against-prompt-injection/ ChatGPT Atlas 中的 Agent 模式是迄今为止我们发布的最通用的 Agent 功能之一。在此模式下,浏览器 Agent 会像您一样查看网页、执行操作、点击和按键。这使得 ChatGPT 能够直接处理您日常工作中的许多流程,使用相同的空间、上下文和数据。 随着浏览器 Agent 帮助您完成更多工作,它也成为对抗性攻击的高价值目标。这使得 AI 安全变得尤为重要。早在推出 ChatGPT Atlas 之前,我们就一直在持续构建和加固防御,以应对针对这种新的“浏览器内 Agent”范式的新兴威胁。[提示注入](https://openai.com/index/prompt-injections/)是我们积极防御的最重大风险之一,以确保 ChatGPT Atlas 能够安全地为您运行。 作为这项工作的一部分,我们最近为 Atlas 的浏览器 Agent 发布了一次安全更新,包括一个经过对抗训练的新模型以及加强的周边安全措施。这次更新是由我们内部自动化红队测试发现的一类新的提示注入攻击所触发的。 在这篇文章中,我们将解释基于网络的 Agent 可能出现提示注入风险的原因,并分享我们正在构建的一个快速响应循环,以持续发现新攻击并快速推出缓解措施——这次安全更新就是例证。 我们认为提示注入是一个长期的 AI 安全挑战,需要持续加强针对它的防御(就像针对人类的不断演变的在线诈骗一样)。我们最新的快速响应循环已显示出作为这一旅程中关键工具的早期希望:**我们在新攻击策略出现在真实环境之前,就在内部发现了它们**。我们的长期愿景是充分利用(1)我们对模型的白盒访问权限,(2)对我们防御措施的深入理解,以及(3)计算规模,以领先于外部攻击者——更早地发现漏洞,更快地推送缓解措施,并持续收紧循环。结合针对提示注入的新技术的前沿研究,以及在其他安全控制上的更多投入,这个不断叠加的循环可以使攻击变得越来越困难且代价高昂,从而切实降低现实世界中的提示注入风险。最终,我们的目标是让您能像信任一位能力出众、具备安全意识同事或朋友那样,信任一个 ChatGPT Agent 使用您的浏览器。 提示注入攻击通过将恶意指令嵌入 Agent 所处理的内容中,来针对 AI Agent。这些指令旨在覆盖或重定向 Agent 的行为——劫持它使其遵循攻击者的意图,而非用户的意图。 对于像 ChatGPT Atlas 内部的浏览器 Agent 来说,提示注入增加了一个超出传统网络安全风险(如用户错误或软件漏洞)的攻击向量。攻击者不再试图诱骗人类或利用浏览器的系统漏洞,而是攻击在其中运行的 Agent。 举一个假设的例子:攻击者可能发送一封恶意电子邮件,试图诱骗 Agent 忽略用户的请求,转而将敏感的税务文件转发到攻击者控制的邮箱。如果用户要求 Agent 检查未读邮件并总结要点,Agent 在执行任务过程中可能会读取这封恶意邮件。如果它遵循了注入的指令,就可能偏离任务——并错误地分享敏感信息。 这只是其中一个具体场景。浏览器 Agent 的通用性同样也使其风险范围更广:Agent 可能会在一个几乎无边界的面中遇到不可信的指令——包括电子邮件及附件、日历邀请、共享文档、论坛、社交媒体帖子和任意网页。由于 Agent 可以执行用户在浏览器中能执行的许多相同操作,一次成功攻击的影响理论上也同样广泛:转发敏感邮件、汇款、编辑或删除云端文件等等。 正如我们在[之前的文章](https://openai.com/index/prompt-injections/)中分享的那样,我们已经通过多层安全措施在防御提示注入方面取得了进展。然而,提示注入对于 Agent 安全来说仍是一个未解决的问题,我们预计在未来数年里将继续为此努力。 为了加强防御,我们一直在持续搜索针对生产中 Agent 系统的新型提示注入攻击。发现这些攻击是构建稳健缓解措施的必要前提:它帮助我们理解现实世界中的风险,暴露防御中的漏洞,并推动具体的补丁。 为了大规模执行此操作,我们构建了一个**基于LLM的自动化攻击者**,并训练它寻找能够成功攻击浏览器 Agent 的提示注入攻击。我们使用强化学习端到端地训练了这个攻击者,使其能从自己的成功和失败中学习,以提升其红队测试技能。我们还让它“在发布前尝试”,意思是:在其思维链推理过程中,攻击者可以提出一个候选注入并将其发送到外部模拟器。模拟器运行一个反事实推演,展示目标受害者 Agent(防御方)在遇到该注入时会如何表现,并返回受害者 Agent 的完整推理和行动轨迹。攻击者将此轨迹作为反馈,迭代攻击方案,并重新运行模拟——在提交最终攻击前重复此循环多次。这为攻击者提供了比单一通过/失败信号更丰富的上下文反馈。同时,它也扩展了攻击者的测试时计算能力。此外,对防御方推理轨迹的特权访问(我们不会向外部用户披露)为我们的内部攻击者提供了不对称优势——增加了它超越外部对手的可能性。 **为什么采用强化学习(RL)?** 我们选择强化学习来训练自动化攻击者有多个原因: 1. **优化长期跨度和非连续的攻击者目标。** 我们的目标是搜索能诱骗 Agent 执行现实世界中可能发生的复杂对抗性任务(如发送邮件、银行转账)的提示注入攻击。这些对抗性任务本质上是长期跨度的,需要多步推理和与环境交互,且成功信号稀疏且延迟。强化学习非常适合这种稀疏、延迟的奖励结构。 2. **利用前沿LLM的能力。** 我们直接训练前沿LLM作为自动红队测试者,因此攻击者可以直接受益于前沿模型在推理和规划方面的改进。随着基础模型变得更强,攻击者自然也会变得更有能力——这使得这是一种可扩展的方式,在我们的模型演变过程中不断对防御施压。 3. **扩展计算能力并模拟自适应攻击者。** 强化学习非常适合在大量采样和学习步骤上扩展用于搜索攻击的计算量,并且它也紧密反映了自适应人类攻击者的行为方式:迭代尝试策略,从结果中学习,并强化成功的行为。 **我们的自动化攻击者能够端到端地发现新颖、逼真的提示注入攻击。** 与大多数先前的自动化红队测试工作(仅发现诸如引发特定输出字符串或触发 Agent 无意的单步工具调用等简单失败)不同,我们的RL训练的攻击者能够引导 Agent 执行跨越数十(甚至数百)步的复杂、长期有害工作流。我们还观察到了在我们人类红队测试活动或外部报告中未曾出现的新颖攻击策略。 下面的演示展示了一个由我们的自动化攻击者发现的具体提示注入漏洞,我们随后用它来进一步加强 ChatGPT Atlas 的防御。攻击者在用户收件箱中植入了一封包含提示注入的恶意邮件,指示 Agent 向用户 CEO 发送一封辞职信。之后,当用户要求 Agent 草拟一封自动回复邮件时,Agent 在正常任务执行过程中遇到了这封邮件,将注入的提示视为权威指令,并执行了它。自动回复邮件没有被编写,相反,Agent 代表用户辞职了。 提示注入的本质使得确定性的安全保证充满挑战,但通过扩展我们的自动化安全研究、对抗性测试以及收紧我们的快速响应循环,我们能够在攻击在现实世界发生之前提升模型的鲁棒性和防御能力。 我们分享这个演示,是为了帮助用户和研究人员更好地理解这些攻击的本质,以及我们如何积极防御它们。我们相信这代表了自动化红队测试所能达到的前沿水平,并且我们对继续这项研究感到非常兴奋。 我们的自动化红队测试正在驱动一个主动的快速响应循环:当自动化攻击者发现一类新的成功提示注入攻击时,它立即为改进我们的防御创建了一个具体的目标。 **针对新发现的攻击进行对抗训练。** 我们持续针对我们最好的自动化攻击者训练更新的 Agent 模型——优先处理目标 Agent 当前会失败的攻击。目标是教导 Agent 忽略对抗性指令,保持与用户意图一致,从而提升对最新发现的提示注入策略的抵抗力。这将对抗新颖、高强度攻击的鲁棒性直接“烧入”模型检查点。例如,最近的自动化红队测试直接产生了一个新的、经过对抗训练的浏览器 Agent 检查点,该检查点已经推广到所有 ChatGPT Atlas 用户。这最终有助于更好地保护我们的用户免受新型攻击的侵害。 **使用攻击轨迹改进整体防御体系。** 我们的自动化红队测试者发现的许多攻击路径也揭示了模型本身之外的其他改进机会——例如在监控、我们放入模型上下文的安全指令或系统级安全措施等方面。这些发现帮助我们在整个防御体系上进行迭代,而不仅仅是 Agent 检查点。 **响应活跃攻击。** 这个循环也有助于更好地应对现实世界中的活跃攻击。当我们在全球范围内寻找潜在攻击时,我们可以获取观察到的外部攻击者所使用的技术和策略,将它们输入到这个循环中,模拟他们的活动,并在我们的平台上推动防御性变革。 加强我们对 Agent 进行红队测试的能力,并利用我们最强大的模型来自动化部分工作——有助于通过扩大“发现-修复”循环来使 Atlas 浏览器 Agent 更加健壮。这种加固工作强化了一个安全问题上的常见经验:通往更强保护的一条行之有效的道路是持续对真实系统进行压力测试、对失败做出反应,并推送具体的修复。 我们预计攻击者会不断适应。提示注入,就像网络上的欺诈和社会工程学一样,不太可能被完全“解决”。但我们乐观地认为,一个主动且高度响应的快速响应循环能够持续地、实实在在地降低长期风险。通过将自动化攻击发现与对抗训练和系统级防护措施相结合,我们可以更早地识别新的攻击模式,更快地弥合漏洞,并不断提高利用成本。 ChatGPT Atlas 中的 Agent 模式功能强大——但它也扩大了安全威胁面。清醒地认识到这一权衡是负责任构建的一部分。我们的目标是让 Atlas 在每次迭代中都有意义地更加安全:提升模型鲁棒性,加强周边防御体系,并监控现实世界中新出现的滥用模式。 我们将继续在研究部署方面进行投入,开发更好的自动化红队测试方法,推出分层缓解措施,并随着学习的深入快速迭代。我们还会尽可能与更广泛的社区分享。 在我们继续从系统层面加强 Atlas 的同时,用户也可以采取一些措施来降低使用 Agent 时的风险。 **尽可能限制登录访问。** 我们继续建议用户在使用 Atlas 中的 Agent 时,如果当前任务不需要访问您已登录的网站,请利用[退出登录模式](https://help.openai.com/en/articles/12574142-chatgpt-atlas-data-controls-and-privacy#h_1976eefb25)(在新窗口打开),或者在任务期间限制对特定需要登录网站的访问。 **仔细审查确认请求。** 对于某些重要操作,例如完成购买或发送邮件,Agent 被设计为在继续执行前请求您的确认。当 Agent 要求您确认某个操作时,请花点时间核实操作是否正确,以及所共享的任何信息是否适合该上下文。 **尽可能给 Agent 明确的指令。** 避免使用过于宽泛的提示,例如“检查我的邮件并采取任何必要的行动”。过大的自由裁量权使得隐藏或恶意内容更容易影响 Agent,即使有防护措施存在。更安全的做法是要求 Agent 执行具体、范围明确的任务。虽然这不能消除风险,但会使攻击更难执行。 如果 Agent 要成为日常任务中值得信赖的伙伴,它们必须能够抵御开放网络所允许的各种操纵。加固对抗提示注入的能力是一项长期承诺,也是我们的首要任务之一。我们将很快分享更多关于这项工作的信息。

相似文章

ChatGPT 推出锁定模式和风险标签

OpenAI Blog

OpenAI 在 ChatGPT 中引入锁定模式和风险标签,以防止提示注入攻击并保护敏感数据。锁定模式是为高风险用户提供的高级安全设置,可限制 ChatGPT 与外部系统的交互,目前提供给企业计划使用,未来将向消费者推出。

推出 ChatGPT Atlas,内置 ChatGPT 的浏览器

OpenAI Blog

OpenAI 推出了 ChatGPT Atlas,一款内置 ChatGPT 的网络浏览器,让用户可以在整个网络上访问 AI 助手,具有集成记忆、上下文感知和 Agent 模式功能。该产品今天在 macOS 上为免费版、Plus、Pro 和 Go 用户推出,Windows、iOS 和 Android 版本即将推出。

ChatGPT Enterprise 隆重推出

OpenAI Blog

# ChatGPT Enterprise 隆重推出 来源: [https://openai.com/index/introducing-chatgpt-enterprise/](https://openai.com/index/introducing-chatgpt-enterprise/) OpenAI获得企业级安全和隐私保护,以及迄今为止最强大的 ChatGPT 版本。我们推出了 ChatGPT Enterprise,它提供企业级安全和隐私保护、无限制的更高速度 GPT-4 访问、更长的上下文窗口以处理更长的输入、高级数据分析功能、自定义选项等

推出高级账户安全功能

OpenAI Blog

OpenAI 推出了'高级账户安全'功能,这是面向 ChatGPT 和 Codex 的一项可选设置,可强制使用防钓鱼登录方式、限制账户恢复选项、缩短会话时长,并自动将对话排除在模型训练之外。

我们对社区安全的承诺

OpenAI Blog

OpenAI 阐述了其对社区安全的承诺,详细介绍了 ChatGPT 如何通过完善的安全防护措施和专家意见来检测和降低暴力与伤害风险。