如果你的AI代理能发邮件、浏览网站或调用工具,我有东西想请你测试一下
摘要
Arc Gate是一个AI代理安全工具,它追踪整个对话以检测跨多轮对话的对抗性行为漂移,与传统的逐条消息检查不同。作者正在寻找拥有真实代理工作流程的团队来测试它。
大多数AI代理的安全工具每次只检查一条消息。Arc Gate追踪整个对话。这很重要,因为生产环境中真正有效的攻击不会在一次消息中发生。它们发生在8轮对话中。每一轮看起来都很干净。等到载荷到达时,你的代理已经准备好执行它了。我利用自己的研究中的几何框架构建了Arc Gate,以检测整个会话中的对抗性行为漂移——而不仅仅是标记个别消息。当对话开始向危险方向漂移时,它会在攻击完成之前捕捉到模式。我正在寻找3个运行真实代理的团队,用实际工作流测试它,并告诉我它在哪里会失效。不是聊天机器人包装器。而是具有真实工具访问权限的代理:浏览器使用、邮件操作、MCP服务器、内部副驾驶、工作流自动化。免费,无销售电话。只需要来自接近生产环境的人的反馈。如果你是这样的人,请评论或私信我。平台:https://bendexgeometry.com GitHub:https://github.com/9hannahnine-jpg/arc-gate 演示:https://web-production-6e47f.up.railway.app/demo
相似文章
构建了一个工具,防止AI代理被网页和邮件中的恶意内容劫持
Arc Gate 是一个代理,通过将网页和邮件内容视为不可信,保护AI代理免受提示注入攻击,且开发者无需修改代码。
你的AI代理距离做出灾难性行为只差一个被污染的网页
Arc Gate 是一个代理级别的工具,它强制执行指令权限边界,以防止AI代理被污染的网页、电子邮件或检索到的文档劫持。
我们为AI智能体安全代理构建了一个公开的红队环境——提交攻击即可获得完整的安全追踪信息
Arc Gate 是一个用于LLM智能体的运行时治理层,强制执行指令-权限边界。该项目已推出公开红队环境,用户可提交攻击并获取完整安全追踪信息,基准测试显示其实现了100%的不安全行为阻止率。
免费AI代理安全评估
Antitech 为AI代理提供免费的早期安全评估服务,针对提示注入、工具滥用、数据泄露等攻击向量进行测试,并提供漏洞报告和参与折扣。
AI代理在重复工作上浪费代币。我构建了一个解决方案,需要测试者。
一位开发者构建了一个系统,通过跨任务复用信息来减少AI代理工作流中的代币浪费,现正在寻找测试者提供反馈。