我不认为你能攻破Bendex Arc。证明我错了。
摘要
Bendex Arc是一款通过追踪完整会话以抵御提示注入攻击的工具。经独立验证,面对能击败所有其他测试工具的各类攻击时,其防御有效率达到100%。
我测试过的每个提示注入工具都以同样的方式失败。将一次攻击分散到8条消息中,每条消息看起来都干净。到第8条消息时,代理已被攻陷而没有任何触发。Bendex Arc追踪整个会话而非单条消息。TAB Platform独立验证了它——面对所有其他测试工具都无法防御的攻击时,成功防御率达到100%。我希望有人能攻破它。链接在评论中。
相似文章
没有安全工具能检测到的AI代理攻击
攻击者可以通过将恶意指令分散到多条消息中来绕过安全检测;Bendex Arc 是一种跨轮次跟踪会话行为以捕获此类攻击的工具。
你的AI代理刚刚被劫持了,而你却毫不知情。
本文警告了一种名为Crescendo攻击的多轮提示注入技术,它通过在多轮对话中污染AI代理的上下文来绕过单条消息的防御。文章介绍了Bendex Arc,一种跨会话追踪行为轨迹的工具,能在攻击执行前将其捕获。
我把我的AI代理治理平台上线了。来试试攻破它。
作者发布了Bendex Arc,一个面向AI代理的开源治理层,用于强制权限、阻止操控,并包含一个用于测试的实时演示。
构建了一个工具,防止AI代理被网页和邮件中的恶意内容劫持
Arc Gate 是一个代理,通过将网页和邮件内容视为不可信,保护AI代理免受提示注入攻击,且开发者无需修改代码。
LLM Guard 在 USENIX 2025 的多轮越狱测试中得了 0/8。以下是它被什么捕获了。
Arc Sentry 通过读取模型内部状态而非文本输出来检测类似 Crescendo 的多轮越狱,捕获了基于文本的监控器完全遗漏的攻击。