AI代理是否正在创造一个新的运行时供应链攻击面？

Reddit r/AI_Agents 2026/05/16 11:31 新闻

ai-agents security supply-chain attack-surface prompt-injection runtime data-risks

摘要

讨论AI代理安全作为一个超越提示注入的运行时供应链问题，强调来自不可信数据、工具和反馈循环的风险，并质疑开发者如何执行边界。

我一直在思考AI代理安全问题，与其说它只是一个提示注入问题，不如说它是一个运行时供应链问题。在许多已部署的代理中，模型不再仅仅是生成文本。它检索外部数据、读取记忆、发现工具、调用API、写入文件，有时还会产生输出，这些输出后来会成为另一个代理/会话的未来输入。这创造了一种不同类型的攻击面：1. 数据侧风险：不可信文档、RAG来源、记忆、电子邮件或网页都可能影响代理的下一个行动。2. 工具侧风险：工具描述、模式、MCP服务器或API行为可能塑造代理认为自己可以/应该做什么。3. 循环风险：代理的输出可能被存储在某处，稍后被检索，并影响未来的行为，从而产生一种“病毒式”反馈循环。我觉得有趣的是，许多这些失败看起来并不像单个恶意提示或单个未授权工具调用。每一步在局部看来可能合理，但端到端的工作流仍可能变得不安全。对于构建或部署代理的人：你们目前如何在可信指令、不可信上下文和可执行操作之间划定边界？你们主要依赖提示注入检测/护栏，还是在运行时/工具边界强制执行约束？

查看原文

AI代理是否正在创造一个新的运行时供应链攻击面？

相似文章

大多数AI安全讨论仍集中在‘保护模型’上。

AI 代理最危险的部分始于其获得执行权限之时

我们尚未讨论的 AI 代理中的显性安全漏洞：输出即权威的那一刻

在生产环境中让智能体采取真实操作，你最担心的是什么？

设计能抵抗提示词注入的AI智能体

提交意见反馈