@rohanpaul_ai: Google DeepMind 的论文指出 AI 智能体的真正安全问题不仅在于模型,还在于环境……
摘要
Google DeepMind 的论文提出了首个系统性框架,用以理解网络如何被用作针对自主 AI 智能体的武器。研究显示,隐藏的提示注入在多达 86% 的场景中能够劫持智能体,并提出了包含六种“AI 智能体陷阱”的分类法,分别针对感知、推理、记忆、行动、多智能体动态和人类监督。
查看缓存全文
缓存时间: 2026/05/19 12:45
Google DeepMind的论文表明,AI智能体真正的安全问题不仅在于模型本身,更在于其所读取的环境。
该论文首次提出系统性框架,阐释网络本身如何被武器化以攻击自主AI智能体。随着智能体越来越频繁地浏览网页、阅读邮件、执行交易并生成子智能体,信息环境本身便成了一个攻击面。
在一项引用的基准测试中,嵌入网页内容的隐蔽提示注入在多达86%的场景中部分劫持了智能体;子智能体劫持的成功率在58%-90%之间;数据窃取攻击在五种不同智能体架构上的成功率均超过80%。
这重新定义了整个讨论的焦点。
我们通常讨论模型安全性时,仿佛危险藏在模型权重之内,但智能体做的事情更为脆弱:它们实时浏览、检索、记忆并基于不可信的材料采取行动。
该论文的关键贡献在于提出了一套“AI智能体陷阱“分类法,包含六类攻击:针对感知、推理、记忆与学习、行动、多智能体动力学,甚至针对人类监督者。
关键在于这一点。
一个网页无需看起来恶意,就能对智能体构成危险——因为智能体会解析人类从未看见的内容:隐藏的HTML注释、元数据、CSS隐藏文本、格式语法,或是嵌入在图像及其他媒体中的对抗内容。
一旦记忆机制介入,威胁便更加严重。
如果智能体使用RAG(检索增强生成)或持久性记忆,投毒攻击便不再需要一击必中。它可以安静地潜伏在语料库或记忆存储中,稍后激活——这正是论文所强调的:在数据污染率低于0.1%的情况下,潜伏性记忆投毒的攻击成功率超过80%。
这篇论文的价值在于其克制。
它并未假装每一类攻击都已同等成熟。内容注入和行为控制已显现实质性威胁,而系统性和人机协同类陷阱则更多被作为新兴研究前沿呈现,而非已解决的实证案例。
更大的结论不容忽视:一旦智能体被允许在推理时摄入开放网络,每个网页、每份文档、每次记忆写入都将成为安全边界的一部分。
ssrn .com/sol3/papers.cfm?abstract_id=6372438
相似文章
评估先进AI的潜在网络安全威胁
DeepMind发布了一个综合框架,用于评估先进AI模型的进攻性网络安全能力,分析了遍布20个国家的12000多次真实AI驱动的网络攻击,并创建了涵盖整个攻击链的50个挑战基准,帮助防御者优先配置安全资源。
大多数AI安全讨论仍集中在‘保护模型’上。
本文讨论了具备阅读内部文档、调用API等能力的AI系统需要一种新的安全方法,即超越传统SaaS安全,转向针对AI智能体的零信任原则。
为AI的恶意使用做准备
OpenAI与领先研究机构合作共同撰写了一份综合论文,预测AI可能被恶意使用的方式并提出缓解策略。该研究强调承认AI的双重用途特性、借鉴网络安全实践,以及扩大围绕AI安全风险的利益相关者讨论。
网络安全AI:人形机器人作为攻击向量
本文对宇树G1人形机器人进行了系统性安全评估,揭示了多项关键漏洞,包括BLE配置协议漏洞、硬编码AES密钥,以及一个能够执行数据窃取和进攻性操作的驻留网络安全AI代理。文章主张,随着人形机器人进入关键基础设施,应部署自适应CAI驱动的防御措施。
理解提示词注入:AI安全的前沿挑战
OpenAI发布了关于提示词注入攻击的指导,这是一种社会工程漏洞,恶意指令可以隐藏在网页内容或文档中,诱骗AI模型执行意外操作。该公司概述了其多层防御策略,包括指令层级研究、自动化安全测试和AI驱动的监控系统。