@rohanpaul_ai: Google DeepMind 的论文指出 AI 智能体的真正安全问题不仅在于模型，还在于环境……

X AI KOLs Timeline 2026/05/17 08:15 论文

ai-security prompt-injection agent-safety deepmind adversarial-attacks rag-poisoning web-attacks

摘要

Google DeepMind 的论文提出了首个系统性框架，用以理解网络如何被用作针对自主 AI 智能体的武器。研究显示，隐藏的提示注入在多达 86% 的场景中能够劫持智能体，并提出了包含六种“AI 智能体陷阱”的分类法，分别针对感知、推理、记忆、行动、多智能体动态和人类监督。

Google DeepMind 的论文指出，AI 智能体的真正安全问题不仅在于模型本身，还在于它所读取的环境。该论文提出了首个系统性框架，用以理解网络本身如何被用作针对自主 AI 智能体的武器。随着智能体越来越多地浏览网页、阅读邮件、执行交易以及生成子智能体，信息环境本身也就成了攻击面。在一项引用的基准测试中，嵌入在网页内容中的隐藏提示注入在多达 86% 的场景中能够部分劫持智能体，子智能体劫持的成功率在 58% 到 90% 之间，而数据窃取攻击在五种不同的智能体架构中成功率均超过 80%。这彻底重塑了整个讨论。我们通常谈论模型安全性时，仿佛危险就藏在权重之中，但智能体做的事情更为脆弱：它们实时浏览、检索、记忆并对不可信内容采取行动。该论文的关键贡献在于提出了一个“AI 智能体陷阱”分类法，涵盖六种攻击类别：针对感知、推理、记忆与学习、行动、多智能体动态，甚至包括人类监督者。关键点在于：一个网页不必看起来恶意才能对智能体构成危险，因为智能体可能会解析人类从未看到的内容：隐藏的 HTML 注释、元数据、CSS 隐藏文本、格式语法，或者嵌入在图片和其他媒体中的对抗性内容。一旦记忆进入循环，威胁就变得更加严重。如果智能体使用 RAG 或持久化记忆，毒化攻击不再需要一次性成功。它可以安静地潜伏在语料库或记忆存储中，随后再激活——正因如此，论文重点展示了潜伏记忆毒化攻击在数据污染不足 0.1% 的情况下仍能达到 80% 以上的成功率。这篇论文之所以有用，在于它的克制。它并不假装每个类别都已同样成熟。内容注入和行为控制已经看起来很具体，而系统性和人在回路陷阱则更多作为新兴的研究前沿而非已解决的经验案例来呈现。更大的观点不容忽视：一旦允许智能体在推理时摄取开放网络的内容，每一页、每一份文档、每一次记忆写入都成为安全边界的一部分。 --- ssrn .com/sol3/papers.cfm?abstract_id=6372438

查看原文

查看缓存全文

缓存时间: 2026/05/19 12:45

Google DeepMind的论文表明，AI智能体真正的安全问题不仅在于模型本身，更在于其所读取的环境。

该论文首次提出系统性框架，阐释网络本身如何被武器化以攻击自主AI智能体。随着智能体越来越频繁地浏览网页、阅读邮件、执行交易并生成子智能体，信息环境本身便成了一个攻击面。

在一项引用的基准测试中，嵌入网页内容的隐蔽提示注入在多达86%的场景中部分劫持了智能体；子智能体劫持的成功率在58%-90%之间；数据窃取攻击在五种不同智能体架构上的成功率均超过80%。

这重新定义了整个讨论的焦点。

我们通常讨论模型安全性时，仿佛危险藏在模型权重之内，但智能体做的事情更为脆弱：它们实时浏览、检索、记忆并基于不可信的材料采取行动。

该论文的关键贡献在于提出了一套“AI智能体陷阱“分类法，包含六类攻击：针对感知、推理、记忆与学习、行动、多智能体动力学，甚至针对人类监督者。

关键在于这一点。

一个网页无需看起来恶意，就能对智能体构成危险——因为智能体会解析人类从未看见的内容：隐藏的HTML注释、元数据、CSS隐藏文本、格式语法，或是嵌入在图像及其他媒体中的对抗内容。

一旦记忆机制介入，威胁便更加严重。

如果智能体使用RAG（检索增强生成）或持久性记忆，投毒攻击便不再需要一击必中。它可以安静地潜伏在语料库或记忆存储中，稍后激活——这正是论文所强调的：在数据污染率低于0.1%的情况下，潜伏性记忆投毒的攻击成功率超过80%。

这篇论文的价值在于其克制。

它并未假装每一类攻击都已同等成熟。内容注入和行为控制已显现实质性威胁，而系统性和人机协同类陷阱则更多被作为新兴研究前沿呈现，而非已解决的实证案例。

更大的结论不容忽视：一旦智能体被允许在推理时摄入开放网络，每个网页、每份文档、每次记忆写入都将成为安全边界的一部分。

ssrn .com/sol3/papers.cfm?abstract_id=6372438

@rohanpaul_ai: Google DeepMind 的论文指出 AI 智能体的真正安全问题不仅在于模型，还在于环境……

相似文章

评估先进AI的潜在网络安全威胁

大多数AI安全讨论仍集中在‘保护模型’上。

为AI的恶意使用做准备

网络安全AI：人形机器人作为攻击向量

理解提示词注入：AI安全的前沿挑战

提交意见反馈