AI代理是否正在创造一个新的运行时供应链攻击面?

Reddit r/AI_Agents 新闻

摘要

讨论AI代理安全作为一个超越提示注入的运行时供应链问题,强调来自不可信数据、工具和反馈循环的风险,并质疑开发者如何执行边界。

我一直在思考AI代理安全问题,与其说它只是一个提示注入问题,不如说它是一个运行时供应链问题。在许多已部署的代理中,模型不再仅仅是生成文本。它检索外部数据、读取记忆、发现工具、调用API、写入文件,有时还会产生输出,这些输出后来会成为另一个代理/会话的未来输入。这创造了一种不同类型的攻击面:1. 数据侧风险:不可信文档、RAG来源、记忆、电子邮件或网页都可能影响代理的下一个行动。2. 工具侧风险:工具描述、模式、MCP服务器或API行为可能塑造代理认为自己可以/应该做什么。3. 循环风险:代理的输出可能被存储在某处,稍后被检索,并影响未来的行为,从而产生一种“病毒式”反馈循环。我觉得有趣的是,许多这些失败看起来并不像单个恶意提示或单个未授权工具调用。每一步在局部看来可能合理,但端到端的工作流仍可能变得不安全。对于构建或部署代理的人:你们目前如何在可信指令、不可信上下文和可执行操作之间划定边界?你们主要依赖提示注入检测/护栏,还是在运行时/工具边界强制执行约束?
查看原文

相似文章

设计能抵抗提示词注入的AI智能体

OpenAI Blog

OpenAI发布了关于设计抗提示词注入攻击的AI智能体的指导意见,指出现代攻击日益采用社会工程学策略而非简单的字符串注入,并倡导采用系统级防御措施来限制影响范围,而不是单纯依赖输入过滤。