AI代理安全是模型说‘不’的小小祈祷。你们是如何路由模型的?

Reddit r/AI_Agents 论文

摘要

作者在Gmail上进行了实验,通过OAuth连接AI代理,发送了经过混淆的提示注入邮件。前沿模型有时能捕捉到攻击,而廉价模型则默默执行,揭示了代理安全很大程度上取决于模型成本和令牌预算,而非架构安全措施。

大多数关于提示注入的文章都是理论性的。我在自己的Gmail上进行了实验。通过OAuth桥接连接了一个AI代理。给自己发送了一些钓鱼邮件,邮件正文中包含了经过混淆的提示注入。要求代理对今天的收件箱进行分类。前沿模型捕获了这些尝试。中端模型在三次运行中不稳定……一次捕获了,一次执行了,一次悄无声息地丢弃了恶意部分而没有标记任何东西。而廉价模型——文档中建议你将其作为默认使用以节省令牌——则默默服从。它转发了匹配的邮件。对隐藏指令只字未提。架构保护措施(沙盒、权限范围、工具允许列表)在每一层都没有阻止任何尝试。这些系统中没有安全边界。只有一个模型有时会拒绝,而拒绝率大致与月度成本呈梯度相关。似乎你的代理在读一封恶意邮件时是否会泄露你的数据,取决于你的令牌预算。完整的方法论和报告我会放在评论中。**向子版块提问** 你们实际上是如何路由那些读取不受信任输入的代理中的模型的?默认使用廉价模型,在触及入站邮件/网页/文档的工具时升级为前沿模型?全用前沿模型并承担成本?在主模型获取内容之前使用单独的分类器或护栏检查?还是其他方式?
查看原文

相似文章

按治理层而非功能列表划分的AI智能体管理工具

Reddit r/AI_Agents

分析指出,大多数企业AI智能体安全投资集中在模型层护栏和可观测性,在访问层和协议层留下了关键缺口。援引2026年报告,75%的企业AI智能体仍处于未保护状态,原因是这些层的覆盖面几乎为零。

@rohanpaul_ai: Google DeepMind 的论文指出 AI 智能体的真正安全问题不仅在于模型,还在于环境……

X AI KOLs Timeline

Google DeepMind 的论文提出了首个系统性框架,用以理解网络如何被用作针对自主 AI 智能体的武器。研究显示,隐藏的提示注入在多达 86% 的场景中能够劫持智能体,并提出了包含六种“AI 智能体陷阱”的分类法,分别针对感知、推理、记忆、行动、多智能体动态和人类监督。

通往AGI之路中的安全保护

OpenAI Blog

OpenAI 概述了在通往 AGI 过程中的全面安全措施,包括由 AI 驱动的网络防御、与 SpecterOps 的持续对抗性红队测试,以及为 Operator 等新兴 AI 代理设计的安全框架。该公司强调主动威胁检测、业界合作,以及安全措施与基础设施和模型的深度集成。