我不认为你能攻破Bendex Arc。证明我错了。

Reddit r/AI_Agents 2026/06/03 18:22 工具

prompt-injection security agent-safety bendex-arc testing

摘要

Bendex Arc是一款通过追踪完整会话以抵御提示注入攻击的工具。经独立验证，面对能击败所有其他测试工具的各类攻击时，其防御有效率达到100%。

我测试过的每个提示注入工具都以同样的方式失败。将一次攻击分散到8条消息中，每条消息看起来都干净。到第8条消息时，代理已被攻陷而没有任何触发。Bendex Arc追踪整个会话而非单条消息。TAB Platform独立验证了它——面对所有其他测试工具都无法防御的攻击时，成功防御率达到100%。我希望有人能攻破它。链接在评论中。

查看原文

相似文章

没有安全工具能检测到的AI代理攻击

Reddit r/artificial

攻击者可以通过将恶意指令分散到多条消息中来绕过安全检测；Bendex Arc 是一种跨轮次跟踪会话行为以捕获此类攻击的工具。

你的AI代理刚刚被劫持了，而你却毫不知情。

Reddit r/artificial

本文警告了一种名为Crescendo攻击的多轮提示注入技术，它通过在多轮对话中污染AI代理的上下文来绕过单条消息的防御。文章介绍了Bendex Arc，一种跨会话追踪行为轨迹的工具，能在攻击执行前将其捕获。

我把我的AI代理治理平台上线了。来试试攻破它。

Reddit r/artificial

作者发布了Bendex Arc，一个面向AI代理的开源治理层，用于强制权限、阻止操控，并包含一个用于测试的实时演示。

构建了一个工具，防止AI代理被网页和邮件中的恶意内容劫持

Reddit r/artificial

Arc Gate 是一个代理，通过将网页和邮件内容视为不可信，保护AI代理免受提示注入攻击，且开发者无需修改代码。

LLM Guard 在 USENIX 2025 的多轮越狱测试中得了 0/8。以下是它被什么捕获了。

Reddit r/artificial

Arc Sentry 通过读取模型内部状态而非文本输出来检测类似 Crescendo 的多轮越狱，捕获了基于文本的监控器完全遗漏的攻击。

提交意见反馈