@GoogleDeepMind: 在多方智能体系统全球扩展之前，嵌入结构性安全协议的时间窗口很窄。我们认为……

X AI KOLs 2026/06/18 13:06 新闻

ai-agents security governance multi-agent-systems ai-control deepmind

摘要

Google DeepMind 推出了 AI Control Roadmap，这是一个纵深防御框架，用于保护AI代理免受失配风险，呼吁AI实验室、政府和学术界进行协作优先排序。

在多方智能体系统全球扩展之前，嵌入结构性安全协议的时间窗口很窄。我们认为这种多层代理安全方法应是AI实验室、政府和学术界的协作优先事项。查看框架 →

查看原文

查看缓存全文

缓存时间: 2026/06/18 14:18

在多智能体系统全球扩展之前，嵌入结构性安全协议的窗口期非常有限。

我们认为，这种多层智能体安全方法应成为AI实验室、政府和学术界的协作重点。

查看框架 →

保障AI智能体的未来

来源：https://deepmind.google/blog/securing-the-future-of-ai-agents/?utm_source=x&utm_medium=social&utm_campaign=&utm_content= 2026年6月18日责任与安全

我们如何保护内部系统，使其免受能力日益增强但对齐尚不完善的AI的影响

AI智能体正在改变我们与技术的关系。通过自主执行从网络防御到科学发现和产品开发等复杂任务，这些系统正在开启一个生产力新时代。仅在美国，AI智能体到2030年就可能创造2.9万亿美元的经济价值（https://www.mckinsey.com/mgi/our-research/agents-robots-and-us-skill-partnerships-in-the-age-of-ai#/）。

随着这些智能体能力增强，它们也需要更复杂的防护措施。这就是我们制定AI控制路线图（https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/securing-the-future-of-ai-agents/gdm-ai-control-roadmap.pdf）的原因：一套用于构建和管理我们在Google内部部署的先进AI的框架。这种“纵深防御”方法可作为整个行业的模板，它超越了传统的模型对齐，增加了一个关键的系统级安全层，即使对齐不完善也能提供保障。

理解AI控制

我们的安全策略从坚实基础开始，包含沙箱、端点安全和提示注入防护等传统防护措施。在此基础上，AI控制路线图将模型对齐（即训练AI天生安全且有用）作为主要防御手段。它通过将内部智能体视为可能未对齐的实体，提供了额外的安全层，即使对齐不完善也能提供保障。

这就像一位拥有双重控制的驾驶教练。教练信任学员，但随时准备在出现错误时接管方向盘或踩下刹车。类似地，我们的AI控制系统根据智能体验证过的行为授予权限，通过可控的、渐进的访问来建立信任。

我们的路线图建立在一个简单但谨慎的假设上：如果一个能力很强的AI智能体与我们的目标不一致，并且以意想不到的方式行事，该怎么办？为了解决这个问题，我们的计划聚焦于三个关键领域。

首先，遵循网络安全最佳实践，我们为AI开发了一个新颖的威胁建模框架。该路线图将不受信任的AI智能体视为潜在的“内部威胁”——类似于公司对待可能已经能够进入办公室的不忠员工。通过基于行业标准MITRE ATT&CK（https://attack.mitre.org/）框架（一个基于真实世界观察的全球可访问的对手战术和技术知识库），我们将潜在攻击分解为更小的战术和技术。这使得我们能够有条不紊地追踪风险，在造成损害前发现不良行为，并安全地进行演练以测试防御是否真正有效。

其次，我们制定部署AI控制缓解措施的计划，以应对这些风险。

识别问题（检测）：监控是AI控制的支柱。我们使用其他值得信赖的AI系统作为“监督者”，持续审查工作智能体的推理、行动和计划，以判断其是否偏离轨道。
管理问题（预防与响应）：如果监督者发现智能体试图执行有害操作，它可以在损害发生前介入阻止该操作。

最后，为确保系统正常运行，我们持续衡量三项关键指标的性能：覆盖率（被监控流量的比例）、召回率（被捕获的未对齐行为比例）和响应时间。

随AI智能升级而扩展安全

随着AI模型不断进步，我们的防御也必须同步加强。在我们的AI控制路线图中，我们将安全协议映射到AI能力在两条关键战线上的可衡量里程碑：

逃避检测的能力： 如今，我们监控模型可见的思维链。然而，随着模型学会隐藏其推理——要么通过监督感知（知道自己被监控），要么通过不透明推理（不使用可见文本进行推理）——仅仅阅读其口头推理已不足够。我们需要分析其行为，并可能检查模型内部运作。
潜在危害的能力： 对于低风险和可逆的操作，我们可以依靠延迟审查记录并在问题发生后迅速修复（异步响应）。对于特别高风险的行动，如重大网络攻击，我们必须转向实时预防，在有害行为执行之前阻止它们（同步响应）。换句话说，我们的响应策略必须随威胁的严重程度而扩展。

AI控制路线图根据部署模型的能力推荐安全措施。模型的检测逃避能力决定了检测等级（D1-D4），模型的攻击执行能力决定了预防与响应等级（R1-R3）。

分析百万智能体轨迹以实现实时监控

为了构建这些系统，我们需要数据。我们的团队已经构建了一个异步监控系统的内部原型，该系统审查编码智能体的轨迹，并将发现上报给人工审查。每个标记事件都根据路线图中的威胁分类法进行分类。

我们已经分析了百万个编码智能体任务，获得了宝贵的见解来完善我们的安全协议，并使我们能够超越简单的关键词过滤，识别高信号的行为模式。例如，这项研究在构建Gemini Spark智能体的实时监控器方面发挥了关键作用，使我们能够实时响应新兴问题，比如意外的数据删除。

需要注意的是，我们的数据表明，大多数被标记的事件并非源于对抗性意图；相反，它们常常源于智能体的误解或过度急躁（https://arxiv.org/abs/2605.30322）以达到用户的目标。理解这些细微差别对于完善我们的安全和安全协议至关重要。

捍卫智能体生态系统是共同责任

AI控制路线图是我们多层面智能体安全策略中的一个关键要素。通过将这些协议与我们的更广泛基础设施集成，我们正在扩展内部安全能力，以安全管理我们最先进的AI模型。

此外，这种多层面智能体安全方法应成为行业、政策制定者和学术界的协作重点。通过围绕最佳实践和标准统一生态系统，我们可以赋能网络防御者并构建社会韧性。这就是为什么今天我们还发布了一份面向政策制定者的技术框架，“智能体安全的三层结构”（https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/securing-the-future-of-ai-agents/three-layers-of-agent-security.pdf）。该文件详细说明了我们需要如何改进单个智能体层面的安全、多智能体系统的安全，以及如何赋能网络防御者并增强整个生态系统的韧性。

我们旨在基于这些框架，自信地部署有能力的AI，同时继续为未来构建安全基础。

在此阅读完整的技术报告：

AI控制路线图（https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/securing-the-future-of-ai-agents/gdm-ai-control-roadmap.pdf）

研究作者

Mary Phuong，Erik Jenner，Laurent Simon，Lewis Ho，Rohin Shah，Sebastian Farquhar，Scott Coull。

致谢

Four Flynn，Anca Dragan，Alan Cooney，Bilal Chughtai，Buck Shlegeris，Cody Wild，David Lindner，Julian Stastny，Kevin Klyman，Li Ding，Myriam Khan，Raluca Ada Popa，Roland Zimmermann，Ryan Greenblatt，Senthooran Rajamanoharan，Victoria Krakovna和Xerxes Dotiwalla。

@GoogleDeepMind: 在多方智能体系统全球扩展之前，嵌入结构性安全协议的时间窗口很窄。我们认为……

保障AI智能体的未来

理解AI控制

随AI智能升级而扩展安全

分析百万智能体轨迹以实现实时监控

捍卫智能体生态系统是共同责任

研究作者

致谢

相似文章

保障AI代理的未来安全

@rohanpaul_ai: Google DeepMind 的论文指出 AI 智能体的真正安全问题不仅在于模型，还在于环境……

谷歌DeepMind担忧：当数百万AI代理开始交互时会发生什么？

每个人都在实时应对AI安全——甚至谷歌

投资多智能体AI安全研究

提交意见反馈