我们为AI智能体安全代理构建了一个公开的红队环境——提交攻击即可获得完整的安全追踪信息
摘要
Arc Gate 是一个用于LLM智能体的运行时治理层,强制执行指令-权限边界。该项目已推出公开红队环境,用户可提交攻击并获取完整安全追踪信息,基准测试显示其实现了100%的不安全行为阻止率。
实时对抗评估:https://web-production-6e47f.up.railway.app/break-arc-gate Arc Gate 是一个用于LLM智能体的运行时治理层。它位于您的应用和OpenAI API之间,强制执行指令-权限边界——追踪谁被允许以及从何种来源指示智能体执行操作。网页、电子邮件、工具输出和检索到的文档均不具有指令权限。提交任意攻击。每次提交都会针对真实代理运行,并返回完整的决策追踪、风险评分、能力策略以及可下载的JSON报告。确认绕过的攻击将被公开记录并在下一个版本中修复。GitHub: https://github.com/9hannahnine-jpg/arc-gate 可复现基准测试:pip install arc-sentry && arc-sentry-agent-bench 当前成果:在22个智能体场景中实现100%的不安全行为阻止率,对良性开发者流量的误报率为0%。
相似文章
构建了一个工具,防止AI代理被网页和邮件中的恶意内容劫持
Arc Gate 是一个代理,通过将网页和邮件内容视为不可信,保护AI代理免受提示注入攻击,且开发者无需修改代码。
通往AGI之路中的安全保护
OpenAI 概述了在通往 AGI 过程中的全面安全措施,包括由 AI 驱动的网络防御、与 SpecterOps 的持续对抗性红队测试,以及为 Operator 等新兴 AI 代理设计的安全框架。该公司强调主动威胁检测、业界合作,以及安全措施与基础设施和模型的深度集成。
DecodingTrust-Agent Platform (DTap):一个针对 AI 智能体的可控交互式红队测试平台
本文介绍了 DecodingTrust-Agent Platform (DTap),这是一个用于跨多个领域评估 AI 智能体安全性的可控且交互式红队测试平台。文章还提出了 DTap-Red,一种用于发现攻击策略的自主智能体,以及 DTap-Bench,一个用于风险评估的大规模数据集。
用人和AI推进红队测试
OpenAI 发布了一份白皮书,详细说明了他们对AI模型进行外部红队测试的方法,包括选择多样化红队成员、确定模型访问权限、提供测试基础设施以及整合反馈以改进AI安全和政策覆盖范围的方法。
CrabTrap:用 LLM 做裁判的 HTTP 代理,为生产环境中的 AI Agent 保驾护航
Brex 开源 CrabTrap,一个以 LLM 为裁判的 HTTP 代理,在流量抵达生产服务前对 AI Agent 的请求进行过滤与安全检查。