我们为AI智能体安全代理构建了一个公开的红队环境——提交攻击即可获得完整的安全追踪信息

Reddit r/artificial 2026/05/14 16:20 工具

security ai-agent proxy red-team llm open-source benchmark

摘要

Arc Gate 是一个用于LLM智能体的运行时治理层，强制执行指令-权限边界。该项目已推出公开红队环境，用户可提交攻击并获取完整安全追踪信息，基准测试显示其实现了100%的不安全行为阻止率。

实时对抗评估：https://web-production-6e47f.up.railway.app/break-arc-gate Arc Gate 是一个用于LLM智能体的运行时治理层。它位于您的应用和OpenAI API之间，强制执行指令-权限边界——追踪谁被允许以及从何种来源指示智能体执行操作。网页、电子邮件、工具输出和检索到的文档均不具有指令权限。提交任意攻击。每次提交都会针对真实代理运行，并返回完整的决策追踪、风险评分、能力策略以及可下载的JSON报告。确认绕过的攻击将被公开记录并在下一个版本中修复。GitHub: https://github.com/9hannahnine-jpg/arc-gate 可复现基准测试：pip install arc-sentry && arc-sentry-agent-bench 当前成果：在22个智能体场景中实现100%的不安全行为阻止率，对良性开发者流量的误报率为0%。

查看原文

我们为AI智能体安全代理构建了一个公开的红队环境——提交攻击即可获得完整的安全追踪信息

相似文章

构建了一个工具，防止AI代理被网页和邮件中的恶意内容劫持

通往AGI之路中的安全保护

DecodingTrust-Agent Platform (DTap)：一个针对 AI 智能体的可控交互式红队测试平台

用人和AI推进红队测试

CrabTrap：用 LLM 做裁判的 HTTP 代理，为生产环境中的 AI Agent 保驾护航

提交意见反馈