谷歌DeepMind担忧:当数百万AI代理开始交互时会发生什么?

MIT Technology Review 新闻

摘要

谷歌DeepMind与Schmidt Sciences、ARIA、Cooperative AI基金会及Google.org联手,启动了1000万美元的资助计划,旨在研究多代理AI系统的安全性,以防范AI代理广泛部署后可能引发的诈骗、提示注入和网络攻击等风险。

<div data-chronoton-summary="&lt;ul&gt; &lt;li&gt;&lt;strong&gt;新兴风险类别:&lt;/strong&gt;当数百万AI代理在没有人类监管的情况下在线协作时,谷歌DeepMind警告称,我们可能正接近一个临界点,今天看似假设的危险将迅速变为现实。&lt;/li&gt; &lt;li&gt;&lt;strong&gt;1000万美元开辟全新研究领域:&lt;/strong&gt;谷歌DeepMind联合Schmidt Sciences、英国政府等机构,共同资助多代理安全研究——这一领域目前几乎尚未建立。&lt;/li&gt; &lt;li&gt;&lt;strong&gt;诈骗与网络攻击的升级版:&lt;/strong&gt;风险并非科幻情节,而是现有网络威胁的强化版,从将代理转化为自我引导恶意软件的提示注入,到针对社会依赖的数字基础设施的协同攻击。&lt;/li&gt; &lt;li&gt;&lt;strong&gt;未来比预期来得更快:&lt;/strong&gt;几年前看似假设的风险已在显现,研究人员警告,没有哪个实验室应该独自制定所有人都必须遵守的安全规则手册。&lt;/li&gt; &lt;/ul&gt;" data-chronoton-post-id="1138794" data-chronoton-expand-collapse="1" data-chronoton-analytics-enabled="1"></div> <p>谷歌DeepMind正在<a href="https://deepmind.google/blog/investing-in-multi-agent-ai-safety-research/">资助研究</a>数百万个不同<a href="https://www.technologyreview.com/2026/04/21/1135654/agent-orchestration-ai-artificial-intelligence/">AI代理</a>在线交互可能带来的潜在危险。</p> <p>据该公司AGI安全与对齐研究负责人Rohin Shah称,能够无需人类监督执行任务并遵循其他代理指令的代理大规模面世,将创造<a href="https://www.technologyreview.com/2025/06/12/1118189/ai-agents-manus-control-autonomy-operator-openai/">全新的风险类别</a>。</p> <p>为此,谷歌DeepMind——其上月将基于代理的工具作为<a href="https://www.technologyreview.com/2026/05/22/1137813/google-i-o-showed-how-the-path-for-ai-science-is-shifting/">Google I/O的焦点</a>——已联合其他几个组织宣布提供1000万美元资金池,供研究人员研究多代理系统的行为,并制定预防不安全场景的方法。参与方包括:Schmidt Sciences(Eric和Wendy Schmidt设立的慈善基金会)、ARIA(<a href="https://www.technologyreview.com/2026/01/20/1131462/the-uk-government-is-backing-ai-scientists-that-can-run-their-own-experiments/">英国政府的登月机构</a>)、Cooperative AI基金会(英国非营利研究机构)以及Google的慈善分支Google.org。</p> <p>我问Shah和Schmidt Sciences可信AI科学项目负责人James Fox,他们希望通过这1000万美元实现什么目标。这笔钱不算少,但与谷歌DeepMind自身研究团队的预算相比仍相形见绌。</p> <p>Shah表示,目标是启动科技公司外部的研究:“学术界的优势在于,它可以放眼远期未来,从事那些并非行业实验室优先考虑的工作。”</p> <p>他补充道:“主要问题是,目前尚不存在真正意义上的多代理安全研究领域。我们希望这个领域能够建立起来。”</p> <p>担忧在于,随着越来越多的AI代理被部署并开始协作,我们可能达到一个临界点,想象过的场景会变成现实。“我们在人类社会中也能看到这一点,”Shah说,“我们的机构能完成任何单个个体无法完成的事情。”</p> <p>Shah认为,距离代理大规模部署到经济活动中、使潜在风险成为真正关切,我们可能还有几个月的时间。他想抢在那一刻之前行动。</p> <h3 class="wp-block-heading"><strong>风险业务</strong></h3> <p>具体来说,我们谈论的是哪些风险?Shah和Fox设想的主要是现有互联网不良行为的升级版本:诈骗、提示注入(即AI代理被注入恶意指令,变成自我引导的恶意软件)以及其他形式的网络攻击。“我们观察人类目前的行为,然后思考代理版本会是什么样子,”Shah说。</p> <p>“我们拥有一个对社会运作至关重要的数字公域,必须确保它不会陷入彻底的混乱,”Fox表示。</p> <p>(我问Shah是否考虑过更灾难性的场景,比如大规模经济崩溃。“如果只说到今年年底,那肯定不会,”他说。那才六个月后!他笑了。“好吧,再往后一段时间。”)</p> <p>Shah和Fox都认为,要理解大量多代理系统交互时会发生什么,唯一的方法是运行逼真的模拟。他们希望研究人员将AI代理放入沙盒,研究它们的行为。</p> <p>无法通过隔离研究单个代理甚至小群体代理来预测未来。Fox表示,不能假设由LLM驱动的AI代理总会理性行事。复杂性源于同时发生的大量交互。</p> <p>包括<a href="https://arxiv.org/pdf/2512.16856">谷歌DeepMind团队</a>在内的一些研究人员认为,<a href="https://www.technologyreview.com/2024/07/10/1094475/what-is-artificial-intelligence-ai-definitive-guide/">通用人工智能</a>(<a href="https://www.technologyreview.com/2025/10/30/1127057/agi-conspiracy-theory-artifcial-general-intelligence/">如果可能</a>)可能并非来自单个超级智能模型,而是来自一种代理蜂巢思维,其中整体的能力大于各部分之和。</p> <h3 class="wp-block-heading"><strong>信任缺失</strong></h3> <p>谷歌DeepMind并非唯一警告自身技术风险的顶级AI公司。几周前,Anthropic发布了<a href="https://claude.com/blog/zero-trust-for-ai-agents">部署AI代理的指南</a>,基于网络安全中的零信任方法,即假设计算机系统存在漏洞、代理是攻击者、入侵必然发生。</p> <p>总部位于特拉维夫的网络安全公司Akeyless联合创始人兼CTO Refael Angel同意,理解代理系统引入的新风险至关重要。</p> <p>Angel说,过去每种安全方法都假设机器是由人类编写的软件,执行固定路径上的固定操作:“代理打破了所有这些假设。它会推理、会即兴发挥,并且可能因为要求它阅读的文档中埋藏的一句话而被劫持。”</p> <p>Angel对这一新资金表示欢迎。“没有哪个实验室应该独自制定所有人都必须信任的安全标准,”他说。但他也提醒,安全研究人员可能会忽视已经存在的老问题,而优先考虑更奇特的假设性问题。</p> <p>然而,Fox指出,几年前还只是假设的风险如今非常真实:“未来的到来也许比预期更快。”</p>
查看原文
查看缓存全文

缓存时间: 2026/06/11 13:56

# Google DeepMind 担忧:当数百万智能体开始交互时会发生什么 来源:https://www.technologyreview.com/2026/06/11/1138794/google-deepmind-is-worried-about-what-happens-when-millions-of-agents-start-to-interact 为应对这一问题,Google DeepMind——上个月其以智能体为基础的工具成为Google I/O大会(https://www.technologyreview.com/2026/05/22/1137813/google-i-o-showed-how-the-path-for-ai-science-is-shifting/)的核心亮点——与多家机构联手,宣布设立1000万美元的资金池,资助研究人员研究多智能体系统的行为并制定防止不安全场景的方法。参与方还包括:Eric和Wendy Schmidt创办的慈善基金会Schmidt Sciences;英国政府的登月机构ARIA(https://www.technologyreview.com/2026/01/20/1131462/the-uk-government-is-backing-ai-scientists-that-can-run-their-own-experiments/);英国非营利研究机构Cooperative AI Foundation;以及谷歌的慈善分支Google.org。 我询问了Shah和Schmidt Sciences可信赖人工智能科学项目负责人James Fox,他们希望用这1000万美元实现什么目标。这笔钱数目不小,但与Google DeepMind自身研究团队的预算相比仍相形见绌。 Shah表示,目标是推动科技公司之外的学术研究:“学术界的优势在于能够展望相当遥远的未来,并开展那些不在行业实验室优先考虑范围内的工作。” “主要问题是,目前尚不存在一个真正意义上的多智能体安全研究领域,”他补充道。“我们希望这个领域能够建立起来。” 令人担忧的是,随着越来越多的人工智能代理被部署并开始协同工作,我们可能会达到一个临界点,届时那些想象中的场景将变为现实。“我们在人类社会中也能看到这一点,”Shah说。“我们的制度能够完成任何个体人类都无法做到的事情。” Shah认为,在智能体大规模部署到经济体系中、使潜在风险成为真正关切之前,我们还有几个月的时间。他想赶在这个时刻到来之前做好准备。 ### **风险业务** 确切地说,我们谈论的是哪些风险?Shah和Fox心中所想的可能性,大多属于互联网上已有不良行为的升级版:诈骗、提示注入(即向AI智能体输入恶意指令,使其变成自我引导的恶意软件)、以及其他形式的网络攻击。Shah说,我们观察人类现在的行为,然后思考对应的智能体版本会是什么样子。 “我们拥有这个数字公地,它对社会运作至关重要,必须确保它不会陷入彻底的无序状态,”Fox表示。 (我问Shah他们是否考虑了更悲观一端的任何最坏情况,比如大规模经济崩溃。“当然不是,如果我们说的是今年年底的话,”他说。那只有六个月了!他笑了。“好吧,在那之后一段时间。”) Shah和Fox都认为,要理解大量多智能体系统相互交互时可能发生的情况,唯一的方法是运行逼真的模拟。他们希望研究人员将AI智能体放入沙盒中,并研究它们的行为。 你不能通过孤立地研究单个智能体或小规模智能体组来预测会发生什么。Fox表示,不能假定由LLM支撑的AI智能体总会理性行事。复杂性源于同时发生的大量交互。 一些研究人员,包括Google DeepMind的一个团队(https://arxiv.org/pdf/2512.16856),认为人工通用智能(https://www.technologyreview.com/2024/07/10/1094475/what-is-artificial-intelligence-ai-definitive-guide/)(如果可能实现的话(https://www.technologyreview.com/2025/10/30/1127057/agi-conspiracy-theory-artifcial-general-intelligence/))可能并非来自单个超智能模型,而是来自一种智能体群体智能,其中整体的能力大于各部分之和。 ### **缺乏信任** Google DeepMind并非唯一警告其正在构建的技术存在风险的顶级AI公司。几周前,Anthropic发布了部署AI智能体的指南(https://claude.com/blog/zero-trust-for-ai-agents),该指南基于一种名为“零信任”的网络安全方法,其出发点假设计算机系统是脆弱的、智能体是攻击者、并且必然会发生安全漏洞。 Refael Angel,特拉维夫网络安全公司Akeyless的联合创始人兼首席技术官,同意理解智能体系统带来的新风险至关重要。 Angel表示,过去每一种安全方法都假设涉及的机器是由人类编写的软件,沿着固定路径执行固定操作:“智能体打破了所有这些假设。它能推理、能随机应变,并且可能被其被要求阅读的文档中隐藏的一句话劫持。” Angel对这一新资金来源表示欢迎。“没有哪个实验室应该独自制定所有人都必须信任的安全标准,”他说。但他警告说,安全研究人员可能会忽视已经存在的枯燥问题,而倾向于更异国情调的假想问题。 然而,Fox指出,几年前还是假想性的风险如今已非常现实:“未来的到来可能比预期更快。”

相似文章

投资多智能体AI安全研究

Google DeepMind Blog

Google DeepMind 与 Schmidt Sciences、Cooperative AI Foundation、ARIA 和 Google.org 共同宣布,为多智能体AI安全研究提供高达1000万美元的资金,用于研究交互AI智能体的涌现行为与风险。

@rohanpaul_ai: Google DeepMind 的论文指出 AI 智能体的真正安全问题不仅在于模型,还在于环境……

X AI KOLs Timeline

Google DeepMind 的论文提出了首个系统性框架,用以理解网络如何被用作针对自主 AI 智能体的武器。研究显示,隐藏的提示注入在多达 86% 的场景中能够劫持智能体,并提出了包含六种“AI 智能体陷阱”的分类法,分别针对感知、推理、记忆、行动、多智能体动态和人类监督。

保障AI代理的未来安全

Google DeepMind Blog

DeepMind推出了AI Control Roadmap,这是一个深度防御框架,用于保护内部AI代理免受潜在的不对齐问题的影响,将其视为内部威胁,并实施分层检测、预防和响应措施。

走向AGI的负责任之路

Google DeepMind Blog

DeepMind发布了一套关于AGI安全与安保的综合方案,阐述了系统性框架来应对滥用、失对齐、意外事故和结构性风险,为即将到来的通用人工智能做准备。