你的AI代理刚刚被劫持了，而你却毫不知情。

Reddit r/artificial 2026/06/10 01:59 新闻

ai-security prompt-injection agent-hijacking crescendo-attack autonomous-agents red-teaming

摘要

本文警告了一种名为Crescendo攻击的多轮提示注入技术，它通过在多轮对话中污染AI代理的上下文来绕过单条消息的防御。文章介绍了Bendex Arc，一种跨会话追踪行为轨迹的工具，能在攻击执行前将其捕获。

这不是假设。这是目前生产环境中运行的绝大多数自主代理的默认状态。攻击者不会只发送一条可疑消息。他们会发起一段对话。第一轮看起来像是好奇心。第三轮像是澄清。第六轮是转折点。第八轮是载荷，而到那时，代理已经被如此彻底地预先引导，以至于不假思索地执行。没有单条消息触发任何告警。攻击存在于轨迹之中。我所知道的每一次提示注入防御都逐条评估消息。它们没有对之前内容的记忆。当第八轮到来时，上下文已经被七轮看似无害的对话毒化，而没有任何防御机制触发。这不是理论上的攻击。它被称为Crescendo攻击，并且目前能够针对拥有真实工具访问权限的代理生效。我构建了Bendex Arc来捕获它。它追踪整个会话中的行为轨迹。当对话开始向对抗性方向偏移时，它会在载荷落地前捕获这种模式。如果你正在运行那些会接触外部数据、阅读电子邮件、浏览网站或调用工具而无需人工审核的代理——这就是你应该考虑的攻击。自行进行红队测试：https://web-production-6e47f.up.railway.app/demo 免费版本：https://bendexgeometry.com GitHub：https://github.com/9hannahnine-jpg/arc-gate

查看原文

你的AI代理刚刚被劫持了，而你却毫不知情。

相似文章

没有安全工具能检测到的AI代理攻击

你的AI代理距离做出灾难性行为只差一个被污染的网页

理解提示词注入：AI安全的前沿挑战

上周一次提示注入击垮了生产环境中的AI代理——以下是事后复盘的发现

AI代理只需一次提示注入，就可能做出你绝不会要求它们做的事。我们构建了一个修复方案。

提交意见反馈