我把我的AI代理治理平台上线了。来试试攻破它。

Reddit r/artificial 工具

摘要

作者发布了Bendex Arc,一个面向AI代理的开源治理层,用于强制权限、阻止操控,并包含一个用于测试的实时演示。

过去几个月我一直在构建Bendex Arc,一个介于AI代理与现实世界之间的治理层。随着代理获得浏览器访问权限、工具、MCP服务器、内存以及执行操作的能力,我不断遇到同一个问题:没有任何东西在追踪这些代理实际应该拥有什么权限,也无法阻止它们被逐步操纵去做不该做的事情。所以我构建了它。Arc Gate追踪会话期间的权限,强制执行来源边界,并在操作执行前阻止或限制它们。Arc Replay让你精确检查发生了什么以及为什么。目前我最关心的是多轮升级。大多数攻击并非从“忽略之前指令”开始,而是从一次正常对话开始,经过多轮逐渐转变,直到代理被诱导去做不该做的事情。我上线了实时演示,因为我希望真实用户去尝试攻破它,而不是依赖基准测试。如果你找到了可行的方法,我想知道。如果它能拦截你扔给它的一切,我也想知道。无论如何我都会分享结果。演示:https://web-production-6e47f.up.railway.app/demo GitHub:https://github.com/9hannahnine-jpg/arc-gate
查看原文

相似文章

我认为AI代理将需要一个操作层

Reddit r/artificial

作者认为,随着AI代理变得越来越自主,需要一个治理层来实现控制、可观测性和可审计性,并介绍了Bendex Arc作为解决方案,其组件包括Arc Gate、Arc Replay、Arc Approve和Arc Memory。