你们如何处理读取外部内容的代理中的提示注入问题?

Reddit r/AI_Agents 新闻

摘要

关于在读取外部内容(如电子邮件和网页)的AI代理中处理提示注入攻击的讨论,探讨了生产级别的防御措施以及超越明显模式的微妙威胁。

我目前正在从事这个领域的一个项目,很好奇其他人在生产环境中使用的方法。具体来说,我对读取电子邮件、网页、文档或工具结果的代理感兴趣。我注意到真正的攻击面并不是用户提示本身,而是代理摄取的内容。例如,一封电子邮件可以指示你的代理执行某个操作,而一个网页可以改变其行为。我遇到的大多数防御措施都专注于检测明显的模式,但往往忽略了更微妙的威胁。你目前的设置是什么样的?你是否在代理级别实施了任何措施,依赖模型护栏,或者只是接受风险?
查看原文

相似文章

理解提示词注入:AI安全的前沿挑战

OpenAI Blog

OpenAI发布了关于提示词注入攻击的指导,这是一种社会工程漏洞,恶意指令可以隐藏在网页内容或文档中,诱骗AI模型执行意外操作。该公司概述了其多层防御策略,包括指令层级研究、自动化安全测试和AI驱动的监控系统。

设计能抵抗提示词注入的AI智能体

OpenAI Blog

OpenAI发布了关于设计抗提示词注入攻击的AI智能体的指导意见,指出现代攻击日益采用社会工程学策略而非简单的字符串注入,并倡导采用系统级防御措施来限制影响范围,而不是单纯依赖输入过滤。

间接提示注入的见解(12分钟阅读)

TLDR AI

Zico Kolter 和 Matt Fredrikson,Gray Swan 的领导者及 AI 安全专家,讨论了 AI 红队测试的现状以及间接提示注入——这是 AI 代理的关键漏洞。他们解释了为何 AI 安全需要不同的思维模式,自动化红队测试如何超越人类,并介绍了用于对抗性测试的工具 Shade。