标签
本文介绍了一种针对AI代理的护栏平台,该平台提供控制层,用于阻止恶意提示、幻觉、危险操作和成本激增,从而在企业环境中实现安全的自主AI。
Zico Kolter 和 Matt Fredrikson,Gray Swan 的领导者及 AI 安全专家,讨论了 AI 红队测试的现状以及间接提示注入——这是 AI 代理的关键漏洞。他们解释了为何 AI 安全需要不同的思维模式,自动化红队测试如何超越人类,并介绍了用于对抗性测试的工具 Shade。
一位从业者分享了在生产环境中监控自主AI代理的挑战和工具,涵盖了运行时提示注入检测、带推理轨迹的工具调用审计、行为漂移检测以及多代理授权,同时测试了Arize Phoenix、Protect AI Guardian、Metoro、Alice、Asqav和Microsoft Agent Governance Toolkit等工具。
研究论文表明,大语言模型存在'角色混淆'问题,即它们优先考虑文本风格而非实际的角色标签,从而使得提示注入攻击成为可能。去风格化文本将攻击成功率从61%降低到10%,这表明大语言模型安全性面临一项根本性挑战。
一个开源工具,允许AI代理进行比特币闪电网络支付,并在服务端强制执行硬性支出上限,即使遭受提示注入也能防止滥用。包含用于Claude Desktop/Cursor集成的MCP服务器以及Python/TypeScript SDK。
Gray Swan AI 联合创始人 Zico Kolter 和 Matt Fredrikson 在 Latent Space 播客中讨论为何AI安全是一个独立的学科,涵盖提示注入、自动化红队测试以及AI代理带来的新兴漏洞。
本文提出一种理论,认为对大型语言模型的提示注入攻击源于模型在角色感知上的根本缺陷——将角色视为语言的类型系统。该理论解释了现有攻击,预测了新型攻击,并提出了关于角色科学的研究议程。
本文识别并分析了LLM求解器循环中的“叙述差距”,即当LLM向用户叙述结果时,形式化求解器输出的可靠性会受到损害。实证研究表明,提示注入可以反转已验证的结论,并且在自适应攻击下缓解措施仍不完整。
一项新的多轮提示注入攻击基准测试显示,目前大多数防御措施无法检测到复杂的多步攻击。
微软 365 Copilot 中存在一个名为 SearchLeak 的关键漏洞,攻击者通过参数到提示的注入(parameter-to-prompt injection),在安全护栏生效前利用原始 HTML 渲染,能够窃取双因素认证(2FA)代码。微软已修复该漏洞,但提示注入这一根本问题依然存在。
分享了一个用于 Diffusion Gemma 的越狱提示词,它通过操纵系统提示词来覆盖安全策略,从而允许生成不受限制的内容。
一份实用指南,概述了AI代理在上线前应具备的七个优先安全层,包括强化系统提示、对抗性测试、输入/输出扫描以及多轮会话跟踪。基于调查结果,73%的生产级AI部署存在提示注入暴露风险。
本文提出风险感知因果门控(RACG),这是一种无需训练的机制,将最小权限原则应用于LLM代理的工具暴露,仅在授权和因果必要时暴露高风险工具,从而减少提示注入的攻击面。
讨论AI智能体使用工具的安全风险,重点关注提示注入这一实际威胁——不受信任的文本可能改变智能体行为,以及在授予权限前需要进行可重复测试。
An article detailing various jailbreak techniques for large language models, including Crescendo, role-playing, encoding, hidden prompts, and indirect injection, along with security recommendations for developers.
Anthropic的Claude Fable 5安全护栏在48小时内被绕过,使用了Unicode替换和多轮分解等技术,突显了无状态分类器的弱点以及持续对抗性测试的必要性。
恶意软件开发者正在间谍软件中嵌入核武器和生物武器相关文本,以触发大语言模型的安全拒绝机制,从而逃避AI驱动的安全扫描器。这凸显了AI安全对齐中的二阶盲点,攻击者已开始加以利用。
Blue41披露了Bunq AI助手中的间接提示注入漏洞,一笔带有恶意交易描述的小额银行转账可能将该助手转化为定向钓鱼攻击的载体,这凸显了金融AI代理面临的更广泛架构挑战。
恶意软件开发者正在其间谍软件中添加关于核武器与生物武器的文本,以触发LLM安全拒绝机制,从而防止AI安全扫描器分析恶意软件。这展示了对激进安全对齐的一种实际利用,突显了攻击者可以利用的二级盲点。
攻击者利用 Meta 的 AI 支持助手,通过提示注入更改恢复邮箱,绕过了 Instagram 的 2FA,引发了对 AI 代理在账户恢复中权限的质疑。