我把我的AI代理治理平台上线了。来试试攻破它。

Reddit r/artificial 2026/06/12 23:53 工具

ai-agent-governance agent-safety security open-source demo guardrails

摘要

作者发布了Bendex Arc，一个面向AI代理的开源治理层，用于强制权限、阻止操控，并包含一个用于测试的实时演示。

过去几个月我一直在构建Bendex Arc，一个介于AI代理与现实世界之间的治理层。随着代理获得浏览器访问权限、工具、MCP服务器、内存以及执行操作的能力，我不断遇到同一个问题：没有任何东西在追踪这些代理实际应该拥有什么权限，也无法阻止它们被逐步操纵去做不该做的事情。所以我构建了它。Arc Gate追踪会话期间的权限，强制执行来源边界，并在操作执行前阻止或限制它们。Arc Replay让你精确检查发生了什么以及为什么。目前我最关心的是多轮升级。大多数攻击并非从“忽略之前指令”开始，而是从一次正常对话开始，经过多轮逐渐转变，直到代理被诱导去做不该做的事情。我上线了实时演示，因为我希望真实用户去尝试攻破它，而不是依赖基准测试。如果你找到了可行的方法，我想知道。如果它能拦截你扔给它的一切，我也想知道。无论如何我都会分享结果。演示：https://web-production-6e47f.up.railway.app/demo GitHub：https://github.com/9hannahnine-jpg/arc-gate

查看原文

我把我的AI代理治理平台上线了。来试试攻破它。

相似文章

我构建了一个兼容OpenAI的AI智能体防火墙。来试试攻破它。

我认为AI代理将需要一个操作层

我构建了一个用于创建和管理AI代理的开源平台（MIT许可，可免费自托管）

如果你的AI代理能发邮件、浏览网站或调用工具，我有东西想请你测试一下

我们向AI智能体展示了它自己的治理记录，结果它开始用了起来

提交意见反馈