设计能抵抗提示词注入的AI智能体
摘要
OpenAI发布了关于设计抗提示词注入攻击的AI智能体的指导意见,指出现代攻击日益采用社会工程学策略而非简单的字符串注入,并倡导采用系统级防御措施来限制影响范围,而不是单纯依赖输入过滤。
ChatGPT如何通过限制风险操作和保护智能体工作流中的敏感数据来防御提示词注入和社会工程学攻击。
查看缓存全文
缓存时间: 2026/04/20 14:51
# 设计 AI 代理以抵抗提示注入攻击
来源:https://openai.com/index/designing-agents-to-resist-prompt-injection/
AI 代理越来越能够浏览网络、检索信息并代表用户采取行动。这些功能很有用,但也为攻击者创造了操纵系统的新方式。
这些攻击通常被称为[提示注入](https://openai.com/index/prompt-injections/):放置在外部内容中的指令,试图让模型执行用户未要求的操作。根据我们的经验,最有效的现实攻击越来越像社会工程学而不是简单的提示覆盖。
这种转变很重要。如果问题不仅是识别恶意字符串,而是抵抗上下文中的误导或操纵内容,那么防御就不能仅依赖于输入过滤。它还需要设计系统,使得即使某些攻击成功,操纵的影响也受到限制。
早期的"提示注入"类型攻击可以像编辑维基百科文章来包含对访问它的 AI 代理的直接指令一样简单;没有训练时期的对抗环境经验,AI 模型通常会毫不犹豫地执行这些指令¹。随着模型变得更聪明,它们对这类建议的脆弱性也降低了,我们观察到提示注入类攻击通过包含社会工程学元素来应对:
在更广泛的 AI 安全生态系统中,普遍建议使用"AI 防火墙"等技术,其中 AI 代理与外部世界之间的中介尝试将输入分类为恶意提示注入和常规输入——但这些充分发展的攻击通常不会被此类系统捕获。对于此类系统,检测恶意输入变成了与检测谎言或虚假信息一样困难的问题,通常还缺乏必要的上下文。
随着现实中的提示注入攻击复杂性的发展,我们发现最有效的攻击技术利用了社会工程学策略。与其将这些包含社会工程学的提示注入攻击视为独立或全新的问题类别,我们开始用在其他领域管理人类社会工程学风险的相同视角来看待它。在这些系统中,目标不仅限于完美识别恶意输入,而是设计代理和系统,使得即使操纵成功,其影响也受到限制。此类系统证明在缓解提示注入和社会工程学方面都很有效。
这样,我们可以将 AI 代理想象为存在于与客户服务代理相似的三方系统中;代理想代表其雇主行动,但他们不断暴露于可能试图误导他们的外部输入。人类或 AI 客户支持代理必须有能力限制来限制在这样恶意环境中存在的固有风险。
想象这样一种情况:人类操作客户支持系统,能够向因客户经历的不便(如交付缓慢、故障导致的损害等)而给出礼品卡和退款。这是一个多方问题,公司必须信任代理出于正确的原因给予退款,同时代理也与可能试图误导他们甚至对他们施加威胁的第三方互动。
在现实中,代理被给予一套要遵循的规则,但预期在他们存在的对抗环境中,他们会被误导。也许客户发送消息声称他们的退款从未到账,或威胁如果不获得退款就造成伤害。代理交互的确定性系统限制了可以给予客户的退款金额,标记潜在的网络钓鱼电子邮件,并提供其他此类缓解措施以限制危害单个代理的影响。
这种思维方式为我们部署的强大反措施套件提供了信息,这些措施维护了用户的安全期望。
在 ChatGPT 中,我们将这种社会工程学模型与更传统的安全工程方法(如源-漏点分析)相结合。
在该框架中,攻击者需要源(或影响系统的方式)和漏点(或在错误的上下文中变得危险的能力)。对于代理系统,这通常意味着将不受信任的外部内容与操作结合,例如向第三方传输信息、跟随链接或与工具交互。
我们的目标是为用户保持核心安全期望:潜在危险的操作或潜在敏感信息的传输不应该在没有适当保障的情况下悄悄发生。
我们看到针对 ChatGPT 开发的攻击最常包括试图说服助手应该从对话中获取某些秘密信息并将其传输到恶意第三方。在我们知道的大多数情况下,这些攻击会失败,因为我们的安全训练导致代理拒绝。对于代理被说服的情况,我们开发了一种称为 *Safe Url* 的缓解策略,旨在检测助手在对话中学到的信息何时会被传输给第三方。在这些罕见情况下,我们要么向用户显示将要传输的信息并要求其确认,要么我们阻止它并告诉代理尝试另一种方式来继续处理用户的请求。
与对抗性外部世界的安全交互对于完全自主的代理是必要的。在将 AI 模型与应用系统集成时,我们建议考虑在类似情况下人类代理应该拥有哪些控制权,并实施这些控制权。我们期望最高智能的 AI 模型将能够比人类代理更好地抵抗社会工程学,但根据应用情况,这并不总是可行或经济有效的。
我们继续探索社会工程学对 AI 模型的影响及其防御方案,并将我们的发现融入我们的应用安全架构和我们对 AI 模型的训练中。
相似文章
理解提示词注入:AI安全的前沿挑战
OpenAI发布了关于提示词注入攻击的指导,这是一种社会工程漏洞,恶意指令可以隐藏在网页内容或文档中,诱骗AI模型执行意外操作。该公司概述了其多层防御策略,包括指令层级研究、自动化安全测试和AI驱动的监控系统。
智能体需要控制流,而非更多提示词
文章认为,可靠的 AI 智能体需要在软件中具备确定性的控制流和程序化验证机制,而不能仅仅依赖复杂的提示词链。
持续强化ChatGPT Atlas抵御提示注入攻击
OpenAI宣布通过对抗训练和强化防护措施,持续加固ChatGPT Atlas以抵御提示注入攻击,包括建立快速响应循环,在新型攻击策略出现于实际环境前即发现并缓解。
帮助开发者构建更安全的青少年AI体验
OpenAI发布了基于提示的安全策略和开放权重的gpt-oss-safeguard模型,帮助开发者构建适合青少年的AI体验,涵盖图形内容、有害行为和危险活动等风险。
当AI代理点击链接时保护您的数据安全
OpenAI 描述了针对AI代理检索网页内容时基于URL的数据泄露攻击的安全防护措施。它利用独立网络索引验证URL是否公开已知,再自动检索,以防止提示注入攻击泄露敏感用户数据。