我把我的AI代理治理平台上线了。来试试攻破它。
摘要
作者发布了Bendex Arc,一个面向AI代理的开源治理层,用于强制权限、阻止操控,并包含一个用于测试的实时演示。
过去几个月我一直在构建Bendex Arc,一个介于AI代理与现实世界之间的治理层。随着代理获得浏览器访问权限、工具、MCP服务器、内存以及执行操作的能力,我不断遇到同一个问题:没有任何东西在追踪这些代理实际应该拥有什么权限,也无法阻止它们被逐步操纵去做不该做的事情。所以我构建了它。Arc Gate追踪会话期间的权限,强制执行来源边界,并在操作执行前阻止或限制它们。Arc Replay让你精确检查发生了什么以及为什么。目前我最关心的是多轮升级。大多数攻击并非从“忽略之前指令”开始,而是从一次正常对话开始,经过多轮逐渐转变,直到代理被诱导去做不该做的事情。我上线了实时演示,因为我希望真实用户去尝试攻破它,而不是依赖基准测试。如果你找到了可行的方法,我想知道。如果它能拦截你扔给它的一切,我也想知道。无论如何我都会分享结果。演示:https://web-production-6e47f.up.railway.app/demo GitHub:https://github.com/9hannahnine-jpg/arc-gate
相似文章
我构建了一个兼容OpenAI的AI智能体防火墙。来试试攻破它。
Arc Gate 是一个兼容OpenAI的防火墙,可跨整个AI智能体会话跟踪权限,并在工具调用执行前从允许升级到阻止。它提供了在线演示,并在GitHub上开源。
我认为AI代理将需要一个操作层
作者认为,随着AI代理变得越来越自主,需要一个治理层来实现控制、可观测性和可审计性,并介绍了Bendex Arc作为解决方案,其组件包括Arc Gate、Arc Replay、Arc Approve和Arc Memory。
我构建了一个用于创建和管理AI代理的开源平台(MIT许可,可免费自托管)
作者构建了一个开源、MIT许可的AI代理创建和管理平台,具备提供商无关支持、MCP集成、记忆、技能、定时触发器和看板功能,可通过Docker Compose部署。
如果你的AI代理能发邮件、浏览网站或调用工具,我有东西想请你测试一下
Arc Gate是一个AI代理安全工具,它追踪整个对话以检测跨多轮对话的对抗性行为漂移,与传统的逐条消息检查不同。作者正在寻找拥有真实代理工作流程的团队来测试它。
我们向AI智能体展示了它自己的治理记录,结果它开始用了起来
一项针对AI编码智能体的本地治理框架实验表明,当智能体自身的治理记录在其上下文中呈现时,智能体会开始自我纠偏,遵循策略并请求意图声明,而无需强制执行。