@rohanpaul_ai: Google DeepMind 的论文指出 AI 智能体的真正安全问题不仅在于模型,还在于环境……

X AI KOLs Timeline 论文

摘要

Google DeepMind 的论文提出了首个系统性框架,用以理解网络如何被用作针对自主 AI 智能体的武器。研究显示,隐藏的提示注入在多达 86% 的场景中能够劫持智能体,并提出了包含六种“AI 智能体陷阱”的分类法,分别针对感知、推理、记忆、行动、多智能体动态和人类监督。

Google DeepMind 的论文指出,AI 智能体的真正安全问题不仅在于模型本身,还在于它所读取的环境。 该论文提出了首个系统性框架,用以理解网络本身如何被用作针对自主 AI 智能体的武器。随着智能体越来越多地浏览网页、阅读邮件、执行交易以及生成子智能体,信息环境本身也就成了攻击面。 在一项引用的基准测试中,嵌入在网页内容中的隐藏提示注入在多达 86% 的场景中能够部分劫持智能体,子智能体劫持的成功率在 58% 到 90% 之间,而数据窃取攻击在五种不同的智能体架构中成功率均超过 80%。 这彻底重塑了整个讨论。 我们通常谈论模型安全性时,仿佛危险就藏在权重之中,但智能体做的事情更为脆弱:它们实时浏览、检索、记忆并对不可信内容采取行动。 该论文的关键贡献在于提出了一个“AI 智能体陷阱”分类法,涵盖六种攻击类别:针对感知、推理、记忆与学习、行动、多智能体动态,甚至包括人类监督者。 关键点在于: 一个网页不必看起来恶意才能对智能体构成危险,因为智能体可能会解析人类从未看到的内容:隐藏的 HTML 注释、元数据、CSS 隐藏文本、格式语法,或者嵌入在图片和其他媒体中的对抗性内容。 一旦记忆进入循环,威胁就变得更加严重。 如果智能体使用 RAG 或持久化记忆,毒化攻击不再需要一次性成功。它可以安静地潜伏在语料库或记忆存储中,随后再激活——正因如此,论文重点展示了潜伏记忆毒化攻击在数据污染不足 0.1% 的情况下仍能达到 80% 以上的成功率。 这篇论文之所以有用,在于它的克制。 它并不假装每个类别都已同样成熟。内容注入和行为控制已经看起来很具体,而系统性和人在回路陷阱则更多作为新兴的研究前沿而非已解决的经验案例来呈现。 更大的观点不容忽视:一旦允许智能体在推理时摄取开放网络的内容,每一页、每一份文档、每一次记忆写入都成为安全边界的一部分。 --- ssrn .com/sol3/papers.cfm?abstract_id=6372438
查看原文
查看缓存全文

缓存时间: 2026/05/19 12:45

Google DeepMind的论文表明,AI智能体真正的安全问题不仅在于模型本身,更在于其所读取的环境。

该论文首次提出系统性框架,阐释网络本身如何被武器化以攻击自主AI智能体。随着智能体越来越频繁地浏览网页、阅读邮件、执行交易并生成子智能体,信息环境本身便成了一个攻击面。

在一项引用的基准测试中,嵌入网页内容的隐蔽提示注入在多达86%的场景中部分劫持了智能体;子智能体劫持的成功率在58%-90%之间;数据窃取攻击在五种不同智能体架构上的成功率均超过80%。

这重新定义了整个讨论的焦点。

我们通常讨论模型安全性时,仿佛危险藏在模型权重之内,但智能体做的事情更为脆弱:它们实时浏览、检索、记忆并基于不可信的材料采取行动。

该论文的关键贡献在于提出了一套“AI智能体陷阱“分类法,包含六类攻击:针对感知、推理、记忆与学习、行动、多智能体动力学,甚至针对人类监督者。

关键在于这一点。

一个网页无需看起来恶意,就能对智能体构成危险——因为智能体会解析人类从未看见的内容:隐藏的HTML注释、元数据、CSS隐藏文本、格式语法,或是嵌入在图像及其他媒体中的对抗内容。

一旦记忆机制介入,威胁便更加严重。

如果智能体使用RAG(检索增强生成)或持久性记忆,投毒攻击便不再需要一击必中。它可以安静地潜伏在语料库或记忆存储中,稍后激活——这正是论文所强调的:在数据污染率低于0.1%的情况下,潜伏性记忆投毒的攻击成功率超过80%。

这篇论文的价值在于其克制。

它并未假装每一类攻击都已同等成熟。内容注入和行为控制已显现实质性威胁,而系统性和人机协同类陷阱则更多被作为新兴研究前沿呈现,而非已解决的实证案例。

更大的结论不容忽视:一旦智能体被允许在推理时摄入开放网络,每个网页、每份文档、每次记忆写入都将成为安全边界的一部分。


ssrn .com/sol3/papers.cfm?abstract_id=6372438

相似文章

评估先进AI的潜在网络安全威胁

Google DeepMind Blog

DeepMind发布了一个综合框架,用于评估先进AI模型的进攻性网络安全能力,分析了遍布20个国家的12000多次真实AI驱动的网络攻击,并创建了涵盖整个攻击链的50个挑战基准,帮助防御者优先配置安全资源。

为AI的恶意使用做准备

OpenAI Blog

OpenAI与领先研究机构合作共同撰写了一份综合论文,预测AI可能被恶意使用的方式并提出缓解策略。该研究强调承认AI的双重用途特性、借鉴网络安全实践,以及扩大围绕AI安全风险的利益相关者讨论。

网络安全AI:人形机器人作为攻击向量

Papers with Code Trending

本文对宇树G1人形机器人进行了系统性安全评估,揭示了多项关键漏洞,包括BLE配置协议漏洞、硬编码AES密钥,以及一个能够执行数据窃取和进攻性操作的驻留网络安全AI代理。文章主张,随着人形机器人进入关键基础设施,应部署自适应CAI驱动的防御措施。

理解提示词注入:AI安全的前沿挑战

OpenAI Blog

OpenAI发布了关于提示词注入攻击的指导,这是一种社会工程漏洞,恶意指令可以隐藏在网页内容或文档中,诱骗AI模型执行意外操作。该公司概述了其多层防御策略,包括指令层级研究、自动化安全测试和AI驱动的监控系统。