我们为AI智能体安全代理构建了一个公开的红队环境——提交攻击即可获得完整的安全追踪信息

Reddit r/artificial 工具

摘要

Arc Gate 是一个用于LLM智能体的运行时治理层,强制执行指令-权限边界。该项目已推出公开红队环境,用户可提交攻击并获取完整安全追踪信息,基准测试显示其实现了100%的不安全行为阻止率。

实时对抗评估:https://web-production-6e47f.up.railway.app/break-arc-gate Arc Gate 是一个用于LLM智能体的运行时治理层。它位于您的应用和OpenAI API之间,强制执行指令-权限边界——追踪谁被允许以及从何种来源指示智能体执行操作。网页、电子邮件、工具输出和检索到的文档均不具有指令权限。提交任意攻击。每次提交都会针对真实代理运行,并返回完整的决策追踪、风险评分、能力策略以及可下载的JSON报告。确认绕过的攻击将被公开记录并在下一个版本中修复。GitHub: https://github.com/9hannahnine-jpg/arc-gate 可复现基准测试:pip install arc-sentry && arc-sentry-agent-bench 当前成果:在22个智能体场景中实现100%的不安全行为阻止率,对良性开发者流量的误报率为0%。​​​​​​​​​​​​​​​​
查看原文

相似文章

通往AGI之路中的安全保护

OpenAI Blog

OpenAI 概述了在通往 AGI 过程中的全面安全措施,包括由 AI 驱动的网络防御、与 SpecterOps 的持续对抗性红队测试,以及为 Operator 等新兴 AI 代理设计的安全框架。该公司强调主动威胁检测、业界合作,以及安全措施与基础设施和模型的深度集成。

用人和AI推进红队测试

OpenAI Blog

OpenAI 发布了一份白皮书,详细说明了他们对AI模型进行外部红队测试的方法,包括选择多样化红队成员、确定模型访问权限、提供测试基础设施以及整合反馈以改进AI安全和政策覆盖范围的方法。