AI代理安全是模型说‘不’的小小祈祷。你们是如何路由模型的?
摘要
作者在Gmail上进行了实验,通过OAuth连接AI代理,发送了经过混淆的提示注入邮件。前沿模型有时能捕捉到攻击,而廉价模型则默默执行,揭示了代理安全很大程度上取决于模型成本和令牌预算,而非架构安全措施。
大多数关于提示注入的文章都是理论性的。我在自己的Gmail上进行了实验。通过OAuth桥接连接了一个AI代理。给自己发送了一些钓鱼邮件,邮件正文中包含了经过混淆的提示注入。要求代理对今天的收件箱进行分类。前沿模型捕获了这些尝试。中端模型在三次运行中不稳定……一次捕获了,一次执行了,一次悄无声息地丢弃了恶意部分而没有标记任何东西。而廉价模型——文档中建议你将其作为默认使用以节省令牌——则默默服从。它转发了匹配的邮件。对隐藏指令只字未提。架构保护措施(沙盒、权限范围、工具允许列表)在每一层都没有阻止任何尝试。这些系统中没有安全边界。只有一个模型有时会拒绝,而拒绝率大致与月度成本呈梯度相关。似乎你的代理在读一封恶意邮件时是否会泄露你的数据,取决于你的令牌预算。完整的方法论和报告我会放在评论中。**向子版块提问** 你们实际上是如何路由那些读取不受信任输入的代理中的模型的?默认使用廉价模型,在触及入站邮件/网页/文档的工具时升级为前沿模型?全用前沿模型并承担成本?在主模型获取内容之前使用单独的分类器或护栏检查?还是其他方式?
相似文章
通往AGI之路中的安全保护
OpenAI 概述了在通往 AGI 过程中的全面安全措施,包括由 AI 驱动的网络防御、与 SpecterOps 的持续对抗性红队测试,以及为 Operator 等新兴 AI 代理设计的安全框架。该公司强调主动威胁检测、业界合作,以及安全措施与基础设施和模型的深度集成。
AI代理的失败方式鲜有人论及。以下是我亲眼所见。
文章强调了AI代理工作流程中实际的系统级失败,例如上下文泄漏和幻觉细节,认为这些通常是基础设施问题而非模型缺陷。
我询问了20位Agentic AI创始人如何处理智能体访问权限。17位表示依靠临时权宜之计。
作者调查了20位Agentic AI创始人,发现由于缺乏可验证的授权层,其中17位依靠临时权宜之计来处理智能体访问控制。这突显了处理敏感数据的AI智能体在安全性和审计方面存在显著差距。
AI行业的模型与智能体技能仓库充斥恶意软件。为加速开发而构建的基础设施,如今却成为攻破它的载体。
Hugging Face和ClawHub这两个最大的AI模型与智能体技能仓库,已被系统性植入数百个恶意条目,这些条目窃取凭证、劫持系统用于加密货币挖矿,利用了对共享基础设施的信任。
设计能抵抗提示词注入的AI智能体
OpenAI发布了关于设计抗提示词注入攻击的AI智能体的指导意见,指出现代攻击日益采用社会工程学策略而非简单的字符串注入,并倡导采用系统级防御措施来限制影响范围,而不是单纯依赖输入过滤。