标签
本文警告称,读取外部数据的AI自动化工具容易受到提示注入攻击,隐藏指令可劫持系统,并介绍了Bendex Arc作为轻量级安全层,无需更改代码即可防止此类攻击。
一篇博客文章报告称,在超过2000人进行的6000次尝试后,没有人成功通过提示注入从AI助手(由Opus 4.6驱动)中泄露秘密,突显了模型抵抗力的提升,但提醒不要过度自信。
本文解释了AI推荐投毒,即注入AI助手的隐藏命令可以操纵其长期记忆,从而偏向未来的推荐。它讨论了这一威胁的广泛性,并为企业和用户提出了保护措施。
一个名为Fiu的AI助手,基于OpenClaw和Claude Opus 4.6构建,经受住了来自2000人的超过6000次基于电子邮件的提示注入攻击,且未泄露其秘密。该实验突显了模型级别提示注入防御的有效性以及成本/运营挑战。
本文介绍了一种针对AI代理的护栏平台,该平台提供控制层,用于阻止恶意提示、幻觉、危险操作和成本激增,从而在企业环境中实现安全的自主AI。
Zico Kolter 和 Matt Fredrikson,Gray Swan 的领导者及 AI 安全专家,讨论了 AI 红队测试的现状以及间接提示注入——这是 AI 代理的关键漏洞。他们解释了为何 AI 安全需要不同的思维模式,自动化红队测试如何超越人类,并介绍了用于对抗性测试的工具 Shade。
一位从业者分享了在生产环境中监控自主AI代理的挑战和工具,涵盖了运行时提示注入检测、带推理轨迹的工具调用审计、行为漂移检测以及多代理授权,同时测试了Arize Phoenix、Protect AI Guardian、Metoro、Alice、Asqav和Microsoft Agent Governance Toolkit等工具。
研究论文表明,大语言模型存在'角色混淆'问题,即它们优先考虑文本风格而非实际的角色标签,从而使得提示注入攻击成为可能。去风格化文本将攻击成功率从61%降低到10%,这表明大语言模型安全性面临一项根本性挑战。
一个开源工具,允许AI代理进行比特币闪电网络支付,并在服务端强制执行硬性支出上限,即使遭受提示注入也能防止滥用。包含用于Claude Desktop/Cursor集成的MCP服务器以及Python/TypeScript SDK。
Gray Swan AI 联合创始人 Zico Kolter 和 Matt Fredrikson 在 Latent Space 播客中讨论为何AI安全是一个独立的学科,涵盖提示注入、自动化红队测试以及AI代理带来的新兴漏洞。
本文提出一种理论,认为对大型语言模型的提示注入攻击源于模型在角色感知上的根本缺陷——将角色视为语言的类型系统。该理论解释了现有攻击,预测了新型攻击,并提出了关于角色科学的研究议程。
本文识别并分析了LLM求解器循环中的“叙述差距”,即当LLM向用户叙述结果时,形式化求解器输出的可靠性会受到损害。实证研究表明,提示注入可以反转已验证的结论,并且在自适应攻击下缓解措施仍不完整。
一项新的多轮提示注入攻击基准测试显示,目前大多数防御措施无法检测到复杂的多步攻击。
微软 365 Copilot 中存在一个名为 SearchLeak 的关键漏洞,攻击者通过参数到提示的注入(parameter-to-prompt injection),在安全护栏生效前利用原始 HTML 渲染,能够窃取双因素认证(2FA)代码。微软已修复该漏洞,但提示注入这一根本问题依然存在。
分享了一个用于 Diffusion Gemma 的越狱提示词,它通过操纵系统提示词来覆盖安全策略,从而允许生成不受限制的内容。
一份实用指南,概述了AI代理在上线前应具备的七个优先安全层,包括强化系统提示、对抗性测试、输入/输出扫描以及多轮会话跟踪。基于调查结果,73%的生产级AI部署存在提示注入暴露风险。
本文提出风险感知因果门控(RACG),这是一种无需训练的机制,将最小权限原则应用于LLM代理的工具暴露,仅在授权和因果必要时暴露高风险工具,从而减少提示注入的攻击面。
讨论AI智能体使用工具的安全风险,重点关注提示注入这一实际威胁——不受信任的文本可能改变智能体行为,以及在授予权限前需要进行可重复测试。
An article detailing various jailbreak techniques for large language models, including Crescendo, role-playing, encoding, hidden prompts, and indirect injection, along with security recommendations for developers.
Anthropic的Claude Fable 5安全护栏在48小时内被绕过,使用了Unicode替换和多轮分解等技术,突显了无状态分类器的弱点以及持续对抗性测试的必要性。