你的AI代理刚刚被劫持了,而你却毫不知情。
摘要
本文警告了一种名为Crescendo攻击的多轮提示注入技术,它通过在多轮对话中污染AI代理的上下文来绕过单条消息的防御。文章介绍了Bendex Arc,一种跨会话追踪行为轨迹的工具,能在攻击执行前将其捕获。
这不是假设。这是目前生产环境中运行的绝大多数自主代理的默认状态。攻击者不会只发送一条可疑消息。他们会发起一段对话。第一轮看起来像是好奇心。第三轮像是澄清。第六轮是转折点。第八轮是载荷,而到那时,代理已经被如此彻底地预先引导,以至于不假思索地执行。没有单条消息触发任何告警。攻击存在于轨迹之中。我所知道的每一次提示注入防御都逐条评估消息。它们没有对之前内容的记忆。当第八轮到来时,上下文已经被七轮看似无害的对话毒化,而没有任何防御机制触发。这不是理论上的攻击。它被称为Crescendo攻击,并且目前能够针对拥有真实工具访问权限的代理生效。我构建了Bendex Arc来捕获它。它追踪整个会话中的行为轨迹。当对话开始向对抗性方向偏移时,它会在载荷落地前捕获这种模式。如果你正在运行那些会接触外部数据、阅读电子邮件、浏览网站或调用工具而无需人工审核的代理——这就是你应该考虑的攻击。自行进行红队测试:https://web-production-6e47f.up.railway.app/demo 免费版本:https://bendexgeometry.com GitHub:https://github.com/9hannahnine-jpg/arc-gate
相似文章
没有安全工具能检测到的AI代理攻击
攻击者可以通过将恶意指令分散到多条消息中来绕过安全检测;Bendex Arc 是一种跨轮次跟踪会话行为以捕获此类攻击的工具。
你的AI代理距离做出灾难性行为只差一个被污染的网页
Arc Gate 是一个代理级别的工具,它强制执行指令权限边界,以防止AI代理被污染的网页、电子邮件或检索到的文档劫持。
理解提示词注入:AI安全的前沿挑战
OpenAI发布了关于提示词注入攻击的指导,这是一种社会工程漏洞,恶意指令可以隐藏在网页内容或文档中,诱骗AI模型执行意外操作。该公司概述了其多层防御策略,包括指令层级研究、自动化安全测试和AI驱动的监控系统。
上周一次提示注入击垮了生产环境中的AI代理——以下是事后复盘的发现
一个生产环境中的AI客服代理因提示注入而被攻破,导致其他客户数据泄露。事后复盘揭示了缺少执行层、审计追踪无效以及没有终止开关等问题,凸显了部署AI代理时存在的系统性安全漏洞。
AI代理只需一次提示注入,就可能做出你绝不会要求它们做的事。我们构建了一个修复方案。
PixieBrix 推出 Agent Browser Shield,这是一款免费、源代码可用的浏览器扩展,可保护AI代理在浏览网页时免受提示注入、暗黑模式和上下文污染的影响。