理解提示词注入:AI安全的前沿挑战

OpenAI Blog 新闻

摘要

OpenAI发布了关于提示词注入攻击的指导,这是一种社会工程漏洞,恶意指令可以隐藏在网页内容或文档中,诱骗AI模型执行意外操作。该公司概述了其多层防御策略,包括指令层级研究、自动化安全测试和AI驱动的监控系统。

提示词注入是AI系统面临的前沿安全挑战。了解这些攻击如何工作,以及OpenAI如何推进研究、训练模型和为用户构建保护措施。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 14:52

# 理解提示词注入:一个前沿安全挑战 来源:https://openai.com/index/prompt-injections/ AI 工具开始做的远不止回答问题。它们现在可以浏览网页、协助研究、规划旅行,以及帮助购买产品。随着功能越来越强大,能够访问其他应用中的数据并代表你采取行动,新的安全挑战也随之出现。其中一个我们重点关注的是提示词注入。 提示词注入是特定于对话式 AI 的一种社会工程学攻击。早期的 AI 系统是单个用户与单个 AI 代理之间的对话。在如今的 AI 产品中,你的对话可能包含来自许多来源的内容,包括互联网。第三方(既不是用户,也不是 AI)可能通过在对话上下文中注入恶意指令来误导模型,这引发了"提示词注入"这个术语。 就像钓鱼邮件或网络诈骗试图诱骗人们泄露敏感信息一样,提示词注入试图诱骗 AI 执行你未要求的操作。 想象你让一个 AI 帮助你进行度假研究,而在此过程中它遇到了隐藏在网页上的误导性内容或有害指令,例如在列表评论或评价中。这些内容可能是精心设计的,试图欺骗 AI 推荐错误的列表,或更糟糕的是,窃取你的信用卡信息。 这些只是"提示词注入"攻击的几个例子——旨在诱骗 AI 执行你未打算执行的操作的有害指令,通常隐藏在网页、文档或电子邮件等普通内容中。 随着 AI 访问更多敏感数据并承担更多主动性和更长期的任务,这些风险也在增加。 防御提示词注入是整个 AI 行业的挑战,也是 OpenAI 的核心关注点。虽然我们预计对手会继续开发此类攻击,但我们正在构建防御措施,即使有人主动试图误导也能执行用户的本意任务。这种能力对于安全实现 AGI 的好处至关重要。 为了保护我们的用户,并帮助改进我们的模型以抵御这些攻击,我们采取了多层防御方法,包括以下内容: 我们希望 AI 能够识别提示词注入并且不会上当。然而,对抗性攻击的鲁棒性是机器学习和 AI 长期以来的挑战,使这成为一个困难的开放问题。我们开发了名为[指令层次结构](https://openai.com/index/the-instruction-hierarchy/)的研究,以帮助模型区分可信指令和不可信指令。我们继续开发新的方法来训练模型更好地识别提示词注入模式,使其能够忽略它们或向用户标记。我们应用的技术之一是自动化红队测试,这是我们多年来[研究](https://cdn.openai.com/papers/diverse-and-effective-red-teaming.pdf)的一个领域,用来开发新型提示词注入攻击。 我们开发了多个[自动化 AI 驱动的监控](https://openai.com/index/introducing-gpt-oss-safeguard/#how-we-use-safety-reasoning-internally)系统来识别和阻止提示词注入攻击。这些补充了安全培训方法,因为它们可以快速更新以阻止我们发现的任何新攻击。这些监控工具不仅帮助识别针对我们用户的潜在提示词注入攻击,还能使我们在敌对的提示词注入研究和测试部署到现实中之前,捕获在我们平台上使用的此类活动。 我们设计了产品和基础设施,采用多层重叠的安全保护措施来帮助保护用户数据。这些功能针对每个产品进行了定制,我们将在未来的文章中进行更多技术细节的探讨。例如,为了帮助你避免访问不可信网站,我们会要求你在 ChatGPT 中批准某些链接,特别是在[要求我们不要编目这些网站](https://help.openai.com/en/articles/10984597-chatgpt-generated-links)的网站上,才能访问这些链接。当我们的 AI 使用工具运行其他程序或代码时(如 Canvas 或我们的开发工具 Codex),我们使用一种称为沙箱的技术来防止模型进行可能由提示词注入导致的有害更改。 我们在产品中包含了内置控制,帮助用户保护自己。例如,在 ChatGPT Atlas 中,你可以选择已登出模式,允许 ChatGPT 代理在未登录网站的情况下启动任务。ChatGPT 代理还会在采取敏感步骤(如完成购买)前暂停并请求确认。当代理在敏感网站上操作时,我们还实现了"监视模式",该模式会提醒你网站的敏感性,并要求你保持选项卡活跃以查看代理的工作。如果你离开包含敏感信息的选项卡,代理将暂停。这确保你了解并掌控代理正在执行的操作。 我们与内部和外部团队进行广泛的红队测试,以测试和改进我们的防御,模拟攻击者行为,并找到改进安全性的新方法。这包括数千小时专门针对提示词注入的工作。随着我们发现新的技术和攻击,我们的团队主动解决安全漏洞并改进模型缓解措施。 为了鼓励善意的独立安全研究人员帮助我们发现新的提示词注入技术和攻击,当他们展示可能导致意外用户数据泄露的现实攻击路径时,我们在[漏洞赏金计划](https://bugcrowd.com/engagements/openai)下提供财务奖励。我们激励外部贡献者迅速提出这些问题,以便我们能够解决这些问题并进一步加强我们的防御。 我们教育用户在产品中使用某些功能的风险,以便用户能够做出明智的决定。例如,当将 ChatGPT 连接到其他应用时,我们解释可能访问的数据、如何使用这些数据,以及可能出现的风险(如网站试图窃取你的数据),并附上学习如何保持更安全的链接。我们还让组织能够控制工作区中用户可以启用或使用哪些功能。 提示词注入是一个预期会随着时间推移而继续演变的前沿安全挑战。新的智能和能力水平要求技术、社会和风险缓解策略协同演进。就像 2000 年代初期的计算机病毒一样,我们认为每个人都应该理解提示词注入的威胁以及如何应对风险,这样我们才能学会安全地从这项技术中受益。保持警觉和谨慎有助于在使用可代表你采取行动的 AI 和代理功能时保持数据更安全。 **对代理的防护建议:** 尽可能限制代理仅访问完成任务所需的敏感数据或凭证。例如,在使用 ChatGPT Atlas 中的代理模式进行度假研究时,如果代理仅进行研究且不需要登录访问权限,请使用"已登出"模式。 我们经常设计代理在采取某些重要行动(如完成购买或发送电子邮件)之前从你那里获得最终确认。当代理要求你确认操作时,仔细检查该操作是否正确,以及任何共享的信息是否适合在该上下文中共享。 当代理在敏感网站(如你的银行)上操作时,观看代理执行其工作。这类似于通过保持手放在方向盘上来监控自动驾驶汽车。 给代理一个非常宽泛的指令(如"检查我的电子邮件并采取任何必要的行动")会使隐藏的恶意内容更容易误导模型,即使它设计为在采取敏感操作前向你查证。 更安全的做法是要求你的代理执行特定的事情,而不是给它广泛的自由权限去可能遵循来自其他地方(如电子邮件)的有害指令。虽然这不能保证不会发生攻击,但会让攻击者更难成功。 随着 AI 技术的发展,新的风险和保护措施将会出现。关注来自 OpenAI 和其他可信来源的更新,以了解最佳实践。 **总结** 提示词注入仍然是一个前沿的、具有挑战性的研究问题,就像网络上的传统诈骗一样,我们预计我们的工作将是持续进行的。虽然我们还没有看到攻击者广泛采用这种技术,但我们预计对手会花费大量时间和资源来找到让 AI 上当受骗的方式。我们继续大力投资使我们的产品更安全,并进行研究以增进 AI 对这一风险的鲁棒性。随着我们了解更多,我们将分享更新,包括我们在这个领域安全工作的持续进展。例如,我们正在构建一份报告,将在不久后发布,其中分享了有关我们如何检测 AI 与互联网的通信是否会传输来自你对话的信息的更多详情。 我们的目标是使这些系统像与你最值得信赖和懂安全的同事或朋友一起工作一样可靠和安全。我们将继续从实际应用中学习,安全地迭代,并在技术进步时发布我们学到的内容。

相似文章

设计能抵抗提示词注入的AI智能体

OpenAI Blog

OpenAI发布了关于设计抗提示词注入攻击的AI智能体的指导意见,指出现代攻击日益采用社会工程学策略而非简单的字符串注入,并倡导采用系统级防御措施来限制影响范围,而不是单纯依赖输入过滤。

持续强化ChatGPT Atlas抵御提示注入攻击

OpenAI Blog

OpenAI宣布通过对抗训练和强化防护措施,持续加固ChatGPT Atlas以抵御提示注入攻击,包括建立快速响应循环,在新型攻击策略出现于实际环境前即发现并缓解。

前沿风险与应对准备

OpenAI Blog

OpenAI 宣布了其应对准备挑战赛的获奖者,该赛事识别了与前沿 AI 系统相关的独特风险。前十名提交作品突出了包括金融系统操纵、信息泄露、医疗伤害、网络攻击和基于说服的威胁等问题,其中 70% 的参赛作品强调了 AI 增强恶意说服能力的潜力。

为AI的恶意使用做准备

OpenAI Blog

OpenAI与领先研究机构合作共同撰写了一份综合论文,预测AI可能被恶意使用的方式并提出缓解策略。该研究强调承认AI的双重用途特性、借鉴网络安全实践,以及扩大围绕AI安全风险的利益相关者讨论。

帮助开发者构建更安全的青少年AI体验

OpenAI Blog

OpenAI发布了基于提示的安全策略和开放权重的gpt-oss-safeguard模型,帮助开发者构建适合青少年的AI体验,涵盖图形内容、有害行为和危险活动等风险。