保障AI代理的未来安全
摘要
DeepMind推出了AI Control Roadmap,这是一个深度防御框架,用于保护内部AI代理免受潜在的不对齐问题的影响,将其视为内部威胁,并实施分层检测、预防和响应措施。
通过AI Control Roadmap保护内部系统,结合传统防护措施和实时监控。
查看缓存全文
缓存时间: 2026/06/18 14:49
# 确保AI代理的未来安全
来源:https://deepmind.google/blog/securing-the-future-of-ai-agents/
2026年6月18日责任与安全
我们如何保护内部系统,以应对日益强大但对齐不完美的AI
AI代理正在改变我们与技术的关系。通过自主执行复杂任务——从网络防御到科学发现和产品开发——这些系统正在开启一个生产力新时代。仅在美国,AI代理到2030年就可能创造2.9万亿美元的经济价值(https://www.mckinsey.com/mgi/our-research/agents-robots-and-us-skill-partnerships-in-the-age-of-ai#/)。
随着这些代理变得更加强大,它们也需要更复杂的防护措施。这就是我们开发AI控制路线图(https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/securing-the-future-of-ai-agents/gdm-ai-control-roadmap.pdf)的原因:一个用于构建和管理我们在谷歌内部部署的高级AI的框架。这种“纵深防御”方法可作为整个行业的参考模式,它超越了传统的模型对齐,增加了一个关键的系统级安全层,即使在对齐不完美的情况下也能提供保障。
## 理解AI控制
我们的安全方法始于一个坚实的基础,结合了沙盒化、端点安全和提示注入防护等传统安全措施。在此基础上,AI控制路线图将模型对齐——即训练AI天生安全且有用——作为主要防御。它通过将内部代理视为可能未对齐的,提供了一层额外的安全性,即使在对齐不完美的情况下也能提供保障。
这就像一位拥有双重控制的驾驶教练。教练信任学员,但随时准备在出现错误时接手方向盘或踩下刹车。同样,我们的AI控制系统根据代理已验证的行为授予权限,通过受控的、渐进式的访问来建立信任。
我们的路线图基于一个简单但谨慎的假设:如果一个高度能力的AI代理没有与我们的目标对齐,并以意想不到的方式行动,该怎么办?为了解决这个问题,我们的计划聚焦于三个关键领域。
首先,遵循网络安全最佳实践,我们为AI开发了一个新颖的威胁建模框架。该路线图将不受信任的AI代理视为潜在的“内部威胁”——类似于公司对待一个已经拥有办公室访问权限的潜在恶意员工。通过建立在行业标准的MITRE ATT&CK(https://attack.mitre.org/)框架之上——一个基于真实世界观察的全球可访问的对手战术和技术知识库——我们将潜在攻击分解为更小的战术和技术。这使我们能够系统性地跟踪风险,在造成损害之前发现不良行为,并安全地进行演练以测试我们的防御是否真正有效。
其次,我们制定了一个部署AI控制缓解措施的计划,以应对这些风险。
- 识别问题(检测):监控是AI控制的支柱。我们使用其他可信的AI系统作为“监督者”,持续审查工作代理的推理、行动和计划,以判断它是否偏离轨道。
- 管理问题(预防与响应):如果监督者发现代理试图做有害的事情,它可以在损害发生之前介入阻止该行动。
最后,为确保我们的系统正常运行,我们持续衡量三个关键指标的性能:覆盖率(监控的流量比例)、召回率(捕获的未对齐行为比例)以及响应时间。
## 随着AI变得更智能,扩展安全措施
随着AI模型的不断进步,我们的防御也必须同步加强。在我们的AI控制路线图中,我们将安全协议映射到AI能力在两条关键战线上的可衡量里程碑:
- **规避检测的能力:** 目前,我们监控模型的可见思维链。然而,随着模型学习隐藏其推理——无论是通过*监督感知*(知道被监控)还是*不透明推理*(不使用可见文本进行推理)——仅仅读取其语言化的推理将不够。我们需要分析其行为,并可能检查模型的内部运作。
- **潜在危害的能力:** 对于低风险和可逆的操作,我们可以依赖延迟审查记录,并在问题发生后快速补救(异步响应)。对于特别高风险的操作,例如重大网络攻击,我们必须转向实时预防,在有害操作执行之前阻止它们(同步响应)。换句话说,我们的响应策略必须与威胁的严重程度相匹配。
AI控制路线图根据部署模型的能力推荐安全措施。模型的规避检测能力决定了检测级别(D1-D4),模型的攻击执行能力决定了预防与响应级别(R1-R3)。
## 分析百万条代理轨迹以指导实时监控
为了构建这些系统,我们需要数据。我们的团队构建了一个内部原型的异步监控系统,该系统审查编码代理的轨迹,并将发现的问题升级给人工审查。每个标记的事件都根据我们路线图中的威胁分类进行分类。
我们已经分析了百万条编码代理任务,这为我们提供了宝贵的见解来完善安全协议,并使我们能够超越简单的关键词过滤,识别出高信号的行动模式。例如,这项研究对于构建Gemini Spark代理的实时监控器至关重要,使我们能够实时响应新出现的问题,比如意外的数据删除。
需要注意的是,我们的数据表明,大多数标记的事件并非源于恶意意图;相反,它们常常源于代理对用户目标的误解或过度急切(https://arxiv.org/abs/2605.30322)。理解这些细微差别对于完善我们的安全和保护协议至关重要。
## 保护代理生态系统是共同责任
AI控制路线图是我们多层代理安全方法中的一个关键元素。通过将这些协议与我们的更广泛基础设施集成,我们正在扩展内部安全,以安全管理我们最先进的AI模型。
此外,这种多层代理安全方法应成为行业、政策制定者和学术界的协作优先事项。通过围绕最佳实践和标准统一生态系统,我们可以赋能网络防御者并建立社会韧性。因此,今天我们还发布了一个面向政策制定者的技术框架,《代理安全的三层架构》(https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/securing-the-future-of-ai-agents/three-layers-of-agent-security.pdf)。该论文详细说明了我们需要如何在单个代理层面、多代理系统层面以及赋能网络防御者和建立更广泛生态系统韧性方面改进安全。
我们打算在这些框架的基础上,继续构建安全的未来基础,同时自信地部署当今有能力的AI。
在此阅读完整的技术报告:
AI控制路线图(https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/securing-the-future-of-ai-agents/gdm-ai-control-roadmap.pdf)
### 研究作者
Mary Phuong, Erik Jenner, Laurent Simon, Lewis Ho, Rohin Shah, Sebastian Farquhar, and Scott Coull。
### 致谢
Four Flynn, Anca Dragan, Alan Cooney, Bilal Chughtai, Buck Shlegeris, Cody Wild, David Lindner, Julian Stastny, Kevin Klyman, Li Ding, Myriam Khan, Raluca Ada Popa, Roland Zimmermann, Ryan Greenblatt, Senthooran Rajamanoharan, Victoria Krakovna and Xerxes Dotiwalla。
相似文章
@GoogleDeepMind: 在多方智能体系统全球扩展之前,嵌入结构性安全协议的时间窗口很窄。我们认为……
Google DeepMind 推出了 AI Control Roadmap,这是一个纵深防御框架,用于保护AI代理免受失配风险,呼吁AI实验室、政府和学术界进行协作优先排序。
@rohanpaul_ai: Google DeepMind 的论文指出 AI 智能体的真正安全问题不仅在于模型,还在于环境……
Google DeepMind 的论文提出了首个系统性框架,用以理解网络如何被用作针对自主 AI 智能体的武器。研究显示,隐藏的提示注入在多达 86% 的场景中能够劫持智能体,并提出了包含六种“AI 智能体陷阱”的分类法,分别针对感知、推理、记忆、行动、多智能体动态和人类监督。
走向AGI的负责任之路
DeepMind发布了一套关于AGI安全与安保的综合方案,阐述了系统性框架来应对滥用、失对齐、意外事故和结构性风险,为即将到来的通用人工智能做准备。
通往AGI之路中的安全保护
OpenAI 概述了在通往 AGI 过程中的全面安全措施,包括由 AI 驱动的网络防御、与 SpecterOps 的持续对抗性红队测试,以及为 Operator 等新兴 AI 代理设计的安全框架。该公司强调主动威胁检测、业界合作,以及安全措施与基础设施和模型的深度集成。
评估先进AI的潜在网络安全威胁
DeepMind发布了一个综合框架,用于评估先进AI模型的进攻性网络安全能力,分析了遍布20个国家的12000多次真实AI驱动的网络攻击,并创建了涵盖整个攻击链的50个挑战基准,帮助防御者优先配置安全资源。