如果你的AI代理能发邮件、浏览网站或调用工具，我有东西想请你测试一下

Reddit r/artificial 2026/06/02 23:34 工具

摘要

Arc Gate是一个AI代理安全工具，它追踪整个对话以检测跨多轮对话的对抗性行为漂移，与传统的逐条消息检查不同。作者正在寻找拥有真实代理工作流程的团队来测试它。

大多数AI代理的安全工具每次只检查一条消息。Arc Gate追踪整个对话。这很重要，因为生产环境中真正有效的攻击不会在一次消息中发生。它们发生在8轮对话中。每一轮看起来都很干净。等到载荷到达时，你的代理已经准备好执行它了。我利用自己的研究中的几何框架构建了Arc Gate，以检测整个会话中的对抗性行为漂移——而不仅仅是标记个别消息。当对话开始向危险方向漂移时，它会在攻击完成之前捕捉到模式。我正在寻找3个运行真实代理的团队，用实际工作流测试它，并告诉我它在哪里会失效。不是聊天机器人包装器。而是具有真实工具访问权限的代理：浏览器使用、邮件操作、MCP服务器、内部副驾驶、工作流自动化。免费，无销售电话。只需要来自接近生产环境的人的反馈。如果你是这样的人，请评论或私信我。平台：https://bendexgeometry.com GitHub：https://github.com/9hannahnine-jpg/arc-gate 演示：https://web-production-6e47f.up.railway.app/demo

查看原文

如果你的AI代理能发邮件、浏览网站或调用工具，我有东西想请你测试一下

相似文章

我构建了一个兼容OpenAI的AI智能体防火墙。来试试攻破它。

大多数AI安全工具检查消息，而Arc Gate检查会话。

构建了一个工具，防止AI代理被网页和邮件中的恶意内容劫持

你的AI代理距离做出灾难性行为只差一个被污染的网页

我们为AI智能体安全代理构建了一个公开的红队环境——提交攻击即可获得完整的安全追踪信息

提交意见反馈