你的AI代理刚刚被劫持了,而你却毫不知情。

Reddit r/artificial 新闻

摘要

本文警告了一种名为Crescendo攻击的多轮提示注入技术,它通过在多轮对话中污染AI代理的上下文来绕过单条消息的防御。文章介绍了Bendex Arc,一种跨会话追踪行为轨迹的工具,能在攻击执行前将其捕获。

这不是假设。这是目前生产环境中运行的绝大多数自主代理的默认状态。攻击者不会只发送一条可疑消息。他们会发起一段对话。第一轮看起来像是好奇心。第三轮像是澄清。第六轮是转折点。第八轮是载荷,而到那时,代理已经被如此彻底地预先引导,以至于不假思索地执行。没有单条消息触发任何告警。攻击存在于轨迹之中。我所知道的每一次提示注入防御都逐条评估消息。它们没有对之前内容的记忆。当第八轮到来时,上下文已经被七轮看似无害的对话毒化,而没有任何防御机制触发。这不是理论上的攻击。它被称为Crescendo攻击,并且目前能够针对拥有真实工具访问权限的代理生效。我构建了Bendex Arc来捕获它。它追踪整个会话中的行为轨迹。当对话开始向对抗性方向偏移时,它会在载荷落地前捕获这种模式。如果你正在运行那些会接触外部数据、阅读电子邮件、浏览网站或调用工具而无需人工审核的代理——这就是你应该考虑的攻击。自行进行红队测试:https://web-production-6e47f.up.railway.app/demo 免费版本:https://bendexgeometry.com GitHub:https://github.com/9hannahnine-jpg/arc-gate
查看原文

相似文章

理解提示词注入:AI安全的前沿挑战

OpenAI Blog

OpenAI发布了关于提示词注入攻击的指导,这是一种社会工程漏洞,恶意指令可以隐藏在网页内容或文档中,诱骗AI模型执行意外操作。该公司概述了其多层防御策略,包括指令层级研究、自动化安全测试和AI驱动的监控系统。