如果你的AI代理能发邮件、浏览网站或调用工具,我有东西想请你测试一下

Reddit r/artificial 工具

摘要

Arc Gate是一个AI代理安全工具,它追踪整个对话以检测跨多轮对话的对抗性行为漂移,与传统的逐条消息检查不同。作者正在寻找拥有真实代理工作流程的团队来测试它。

大多数AI代理的安全工具每次只检查一条消息。Arc Gate追踪整个对话。这很重要,因为生产环境中真正有效的攻击不会在一次消息中发生。它们发生在8轮对话中。每一轮看起来都很干净。等到载荷到达时,你的代理已经准备好执行它了。我利用自己的研究中的几何框架构建了Arc Gate,以检测整个会话中的对抗性行为漂移——而不仅仅是标记个别消息。当对话开始向危险方向漂移时,它会在攻击完成之前捕捉到模式。我正在寻找3个运行真实代理的团队,用实际工作流测试它,并告诉我它在哪里会失效。不是聊天机器人包装器。而是具有真实工具访问权限的代理:浏览器使用、邮件操作、MCP服务器、内部副驾驶、工作流自动化。免费,无销售电话。只需要来自接近生产环境的人的反馈。如果你是这样的人,请评论或私信我。平台:https://bendexgeometry.com GitHub:https://github.com/9hannahnine-jpg/arc-gate 演示:https://web-production-6e47f.up.railway.app/demo
查看原文

相似文章

免费AI代理安全评估

Reddit r/AI_Agents

Antitech 为AI代理提供免费的早期安全评估服务,针对提示注入、工具滥用、数据泄露等攻击向量进行测试,并提供漏洞报告和参与折扣。