@GoogleDeepMind: 在多方智能体系统全球扩展之前,嵌入结构性安全协议的时间窗口很窄。我们认为……

X AI KOLs 新闻

摘要

Google DeepMind 推出了 AI Control Roadmap,这是一个纵深防御框架,用于保护AI代理免受失配风险,呼吁AI实验室、政府和学术界进行协作优先排序。

在多方智能体系统全球扩展之前,嵌入结构性安全协议的时间窗口很窄。 我们认为这种多层代理安全方法应是AI实验室、政府和学术界的协作优先事项。 查看框架 →
查看原文
查看缓存全文

缓存时间: 2026/06/18 14:18

在多智能体系统全球扩展之前,嵌入结构性安全协议的窗口期非常有限。

我们认为,这种多层智能体安全方法应成为AI实验室、政府和学术界的协作重点。

查看框架 →


保障AI智能体的未来

来源:https://deepmind.google/blog/securing-the-future-of-ai-agents/?utm_source=x&utm_medium=social&utm_campaign=&utm_content= 2026年6月18日责任与安全

我们如何保护内部系统,使其免受能力日益增强但对齐尚不完善的AI的影响

AI智能体正在改变我们与技术的关系。通过自主执行从网络防御到科学发现和产品开发等复杂任务,这些系统正在开启一个生产力新时代。仅在美国,AI智能体到2030年就可能创造2.9万亿美元的经济价值(https://www.mckinsey.com/mgi/our-research/agents-robots-and-us-skill-partnerships-in-the-age-of-ai#/)。

随着这些智能体能力增强,它们也需要更复杂的防护措施。这就是我们制定AI控制路线图(https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/securing-the-future-of-ai-agents/gdm-ai-control-roadmap.pdf)的原因:一套用于构建和管理我们在Google内部部署的先进AI的框架。这种“纵深防御”方法可作为整个行业的模板,它超越了传统的模型对齐,增加了一个关键的系统级安全层,即使对齐不完善也能提供保障。

理解AI控制

我们的安全策略从坚实基础开始,包含沙箱、端点安全和提示注入防护等传统防护措施。在此基础上,AI控制路线图将模型对齐(即训练AI天生安全且有用)作为主要防御手段。它通过将内部智能体视为可能未对齐的实体,提供了额外的安全层,即使对齐不完善也能提供保障。

这就像一位拥有双重控制的驾驶教练。教练信任学员,但随时准备在出现错误时接管方向盘或踩下刹车。类似地,我们的AI控制系统根据智能体验证过的行为授予权限,通过可控的、渐进的访问来建立信任。

我们的路线图建立在一个简单但谨慎的假设上:如果一个能力很强的AI智能体与我们的目标不一致,并且以意想不到的方式行事,该怎么办?为了解决这个问题,我们的计划聚焦于三个关键领域。

首先,遵循网络安全最佳实践,我们为AI开发了一个新颖的威胁建模框架。该路线图将不受信任的AI智能体视为潜在的“内部威胁”——类似于公司对待可能已经能够进入办公室的不忠员工。通过基于行业标准MITRE ATT&CK(https://attack.mitre.org/)框架(一个基于真实世界观察的全球可访问的对手战术和技术知识库),我们将潜在攻击分解为更小的战术和技术。这使得我们能够有条不紊地追踪风险,在造成损害前发现不良行为,并安全地进行演练以测试防御是否真正有效。

其次,我们制定部署AI控制缓解措施的计划,以应对这些风险。

  • 识别问题(检测):监控是AI控制的支柱。我们使用其他值得信赖的AI系统作为“监督者”,持续审查工作智能体的推理、行动和计划,以判断其是否偏离轨道。
  • 管理问题(预防与响应):如果监督者发现智能体试图执行有害操作,它可以在损害发生前介入阻止该操作。

最后,为确保系统正常运行,我们持续衡量三项关键指标的性能:覆盖率(被监控流量的比例)、召回率(被捕获的未对齐行为比例)和响应时间。

随AI智能升级而扩展安全

随着AI模型不断进步,我们的防御也必须同步加强。在我们的AI控制路线图中,我们将安全协议映射到AI能力在两条关键战线上的可衡量里程碑:

  • 逃避检测的能力: 如今,我们监控模型可见的思维链。然而,随着模型学会隐藏其推理——要么通过监督感知(知道自己被监控),要么通过不透明推理(不使用可见文本进行推理)——仅仅阅读其口头推理已不足够。我们需要分析其行为,并可能检查模型内部运作。
  • 潜在危害的能力: 对于低风险和可逆的操作,我们可以依靠延迟审查记录并在问题发生后迅速修复(异步响应)。对于特别高风险的行动,如重大网络攻击,我们必须转向实时预防,在有害行为执行之前阻止它们(同步响应)。换句话说,我们的响应策略必须随威胁的严重程度而扩展。

AI控制路线图根据部署模型的能力推荐安全措施。模型的检测逃避能力决定了检测等级(D1-D4),模型的攻击执行能力决定了预防与响应等级(R1-R3)。

分析百万智能体轨迹以实现实时监控

为了构建这些系统,我们需要数据。我们的团队已经构建了一个异步监控系统的内部原型,该系统审查编码智能体的轨迹,并将发现上报给人工审查。每个标记事件都根据路线图中的威胁分类法进行分类。

我们已经分析了百万个编码智能体任务,获得了宝贵的见解来完善我们的安全协议,并使我们能够超越简单的关键词过滤,识别高信号的行为模式。例如,这项研究在构建Gemini Spark智能体的实时监控器方面发挥了关键作用,使我们能够实时响应新兴问题,比如意外的数据删除。

需要注意的是,我们的数据表明,大多数被标记的事件并非源于对抗性意图;相反,它们常常源于智能体的误解或过度急躁(https://arxiv.org/abs/2605.30322)以达到用户的目标。理解这些细微差别对于完善我们的安全和安全协议至关重要。

捍卫智能体生态系统是共同责任

AI控制路线图是我们多层面智能体安全策略中的一个关键要素。通过将这些协议与我们的更广泛基础设施集成,我们正在扩展内部安全能力,以安全管理我们最先进的AI模型。

此外,这种多层面智能体安全方法应成为行业、政策制定者和学术界的协作重点。通过围绕最佳实践和标准统一生态系统,我们可以赋能网络防御者并构建社会韧性。这就是为什么今天我们还发布了一份面向政策制定者的技术框架,“智能体安全的三层结构”(https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/securing-the-future-of-ai-agents/three-layers-of-agent-security.pdf)。该文件详细说明了我们需要如何改进单个智能体层面的安全、多智能体系统的安全,以及如何赋能网络防御者并增强整个生态系统的韧性。

我们旨在基于这些框架,自信地部署有能力的AI,同时继续为未来构建安全基础。

在此阅读完整的技术报告:

AI控制路线图(https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/securing-the-future-of-ai-agents/gdm-ai-control-roadmap.pdf)

研究作者

Mary Phuong,Erik Jenner,Laurent Simon,Lewis Ho,Rohin Shah,Sebastian Farquhar,Scott Coull。

致谢

Four Flynn,Anca Dragan,Alan Cooney,Bilal Chughtai,Buck Shlegeris,Cody Wild,David Lindner,Julian Stastny,Kevin Klyman,Li Ding,Myriam Khan,Raluca Ada Popa,Roland Zimmermann,Ryan Greenblatt,Senthooran Rajamanoharan,Victoria Krakovna和Xerxes Dotiwalla。

相似文章

保障AI代理的未来安全

Google DeepMind Blog

DeepMind推出了AI Control Roadmap,这是一个深度防御框架,用于保护内部AI代理免受潜在的不对齐问题的影响,将其视为内部威胁,并实施分层检测、预防和响应措施。

@rohanpaul_ai: Google DeepMind 的论文指出 AI 智能体的真正安全问题不仅在于模型,还在于环境……

X AI KOLs Timeline

Google DeepMind 的论文提出了首个系统性框架,用以理解网络如何被用作针对自主 AI 智能体的武器。研究显示,隐藏的提示注入在多达 86% 的场景中能够劫持智能体,并提出了包含六种“AI 智能体陷阱”的分类法,分别针对感知、推理、记忆、行动、多智能体动态和人类监督。

投资多智能体AI安全研究

Google DeepMind Blog

Google DeepMind 与 Schmidt Sciences、Cooperative AI Foundation、ARIA 和 Google.org 共同宣布,为多智能体AI安全研究提供高达1000万美元的资金,用于研究交互AI智能体的涌现行为与风险。