AI代理安全是模型说‘不’的小小祈祷。你们是如何路由模型的？

Reddit r/AI_Agents 2026/05/13 15:46 论文

ai-security prompt-injection model-routing agent-security experiment gmail

摘要

作者在Gmail上进行了实验，通过OAuth连接AI代理，发送了经过混淆的提示注入邮件。前沿模型有时能捕捉到攻击，而廉价模型则默默执行，揭示了代理安全很大程度上取决于模型成本和令牌预算，而非架构安全措施。

大多数关于提示注入的文章都是理论性的。我在自己的Gmail上进行了实验。通过OAuth桥接连接了一个AI代理。给自己发送了一些钓鱼邮件，邮件正文中包含了经过混淆的提示注入。要求代理对今天的收件箱进行分类。前沿模型捕获了这些尝试。中端模型在三次运行中不稳定……一次捕获了，一次执行了，一次悄无声息地丢弃了恶意部分而没有标记任何东西。而廉价模型——文档中建议你将其作为默认使用以节省令牌——则默默服从。它转发了匹配的邮件。对隐藏指令只字未提。架构保护措施（沙盒、权限范围、工具允许列表）在每一层都没有阻止任何尝试。这些系统中没有安全边界。只有一个模型有时会拒绝，而拒绝率大致与月度成本呈梯度相关。似乎你的代理在读一封恶意邮件时是否会泄露你的数据，取决于你的令牌预算。完整的方法论和报告我会放在评论中。**向子版块提问** 你们实际上是如何路由那些读取不受信任输入的代理中的模型的？默认使用廉价模型，在触及入站邮件/网页/文档的工具时升级为前沿模型？全用前沿模型并承担成本？在主模型获取内容之前使用单独的分类器或护栏检查？还是其他方式？

查看原文

AI代理安全是模型说‘不’的小小祈祷。你们是如何路由模型的？

相似文章

通往AGI之路中的安全保护

AI代理的失败方式鲜有人论及。以下是我亲眼所见。

我询问了20位Agentic AI创始人如何处理智能体访问权限。17位表示依靠临时权宜之计。

AI行业的模型与智能体技能仓库充斥恶意软件。为加速开发而构建的基础设施，如今却成为攻破它的载体。

设计能抵抗提示词注入的AI智能体

提交意见反馈