SIMA 2:在虚拟3D世界中与你一起游玩、推理和学习的智能体

Google DeepMind Blog 模型

摘要

DeepMind推出SIMA 2,这是一款与Gemini集成的升级版AI智能体,能够在虚拟3D世界中进行推理、对话和自我改进,标志着向AGI和具身智能迈出了重要一步。

隆重介绍SIMA 2,一款由Gemini驱动的AI智能体,能够在交互式环境中进行思考、理解并采取行动。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/08 09:41

# SIMA 2:在虚拟 3D 世界中与你一起游戏、推理和学习的智能体 来源:https://deepmind.google/blog/sima-2-an-agent-that-plays-reasons-and-learns-with-you-in-virtual-3d-worlds/ 2025年11月13日 研究 去年,我们推出了 [SIMA](https://deepmind.google/discover/blog/sima-generalist-ai-agent-for-3d-virtual-environments/)(Scalable Instructable Multiworld Agent,可扩展多世界可指导智能体),一种能够跨多种虚拟环境遵循基本指令的通用 AI。SIMA 是教 AI 将语言转化为丰富 3D 世界中有意义行动的关键第一步。 今天我们推出 SIMA 2,这是我们研发通用且实用 AI 智能体的下一个里程碑。通过整合 [Gemini 模型](https://deepmind.google/models/gemini/) 的先进能力,SIMA 正从指令执行者进化为交互式游戏伙伴。SIMA 2 不仅能遵循虚拟世界中的人类语言指令,现在还能思考其目标、与用户对话,并随着时间不断改进。 这是迈向通用人工智能(AGI)的重要一步,对未来机器人技术和 AI 具身智能具有深远影响。 - [推理](https://deepmind.google/blog/sima-2-an-agent-that-plays-reasons-and-learns-with-you-in-virtual-3d-worlds/#reasoning) - [泛化](https://deepmind.google/blog/sima-2-an-agent-that-plays-reasons-and-learns-with-you-in-virtual-3d-worlds/#generalization) - [自我改进](https://deepmind.google/blog/sima-2-an-agent-that-plays-reasons-and-learns-with-you-in-virtual-3d-worlds/#self-improvement) - [下一步](https://deepmind.google/blog/sima-2-an-agent-that-plays-reasons-and-learns-with-you-in-virtual-3d-worlds/#next-steps) - [责任](https://deepmind.google/blog/sima-2-an-agent-that-plays-reasons-and-learns-with-you-in-virtual-3d-worlds/#responsibility) ## 推理的力量 SIMA 的首个版本学会了在多种商业视频游戏中执行超过 600 种语言跟随技能,如"向左转"、"爬梯子"和"打开地图"。它在这些环境中像人一样操作,通过"观看"屏幕并使用虚拟键盘和鼠标进行导航,而无法访问底层游戏机制。 SIMA 2 则超越了指令跟随。通过将 Gemini 模型嵌入为智能体的核心,SIMA 2 不仅能响应指令,还能对其进行思考和推理。 SIMA 2 的新架构整合了 Gemini 强大的推理能力,帮助它理解用户的高级目标,进行复杂的推理,并在游戏中熟练执行面向目标的行动。 我们使用带语言标注的人类演示视频以及 Gemini 生成的标注混合训练 SIMA 2。因此,SIMA 2 现在可以向用户描述它打算做什么,并详细说明为实现目标所采取的步骤。 在测试中,我们发现与该智能体交互的感觉更像是与能够理解手头任务的伙伴协作,而不仅仅是向它发号施令。 得益于我们与现有及新游戏合作伙伴的合作(参见致谢),我们得以在更广泛的游戏上训练和评估 SIMA 2。 这就是 Gemini 为具身 AI 带来的力量:一个世界级的推理引擎,现在能够在复杂的交互式 3D 环境中感知、理解并采取行动。 ## 泛化性能的飞跃 Gemini 的加入也带来了泛化能力和可靠性的提升。SIMA 2 现在能理解比前代更复杂、更细致的指令,并且在执行这些指令时成功率更高,尤其是在从未训练过的情境或游戏中,如新的维京生存游戏 ASKA,或 MineDojo——热门开放世界沙盒游戏 Minecraft 的研究实现版本。 ### SIMA 2 能够理解和完成长而复杂的任务 ### SIMA 2 理解多模态提示 ### SIMA 2 能理解不同语言甚至表情符号 此外,它迁移所学概念的能力——例如,将在一个游戏中对"采矿"的理解应用到另一个游戏中的"采集"——是实现人类认知中广泛泛化的基础。事实上,由于这种能力,SIMA 2 在广泛任务上的表现显著更接近人类玩家。 SIMA 2 能够跨多个游戏泛化动作,包括它未训练过的游戏(如 MineDojo 和 ASKA)。 ### 终极测试:在全新想象的世界中游戏 为了测试 SIMA 2 泛化能力的极限,我们将其与另一项突破性研究项目 [**Genie 3**](https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/) 结合,后者能够从单张图像或文本提示生成新的实时 3D 模拟世界。 当我们挑战 SIMA 2 在这些新生成的世界中游戏时,发现它能够合理地进行自我定位、理解用户指令,并采取有意义的行动来实现目标,尽管从未见过这样的环境。它展示了前所未有的适应能力。 ## 迈向可扩展的多任务自我改进 SIMA 2 最令人兴奋的新能力之一是其自我改进的能力。我们观察到,在整个训练过程中,SIMA 2 智能体能够执行越来越复杂的新任务,这得益于试错和基于 Gemini 的反馈。 例如,在最初从人类演示中学习后,SIMA 2 可以过渡到通过自主游戏在新游戏中学习,在无需额外人类生成数据的情况下,在未曾见过的世界中发展其技能。在后续训练中,SIMA 2 自身的经验数据随后可用于训练下一代更强大的智能体。我们甚至能够利用 SIMA 2 的自我改进能力在全新创建的 Genie 环境中进行学习——这是迈向在多样化生成世界中训练通用智能体的重要里程碑。 SIMA 2 的自我改进循环始于 Gemini 提供初始任务和对 SIMA 2 行为的预估奖励。这些信息随后被添加到自我生成经验库中,智能体在后续代际中使用这些经验进行进一步训练。这一过程使智能体能够完全独立于人类生成的演示和干预,改进先前失败的任务。 这种迭代改进的良性循环为未来的智能体铺平了道路:它们可以在最少人工干预的情况下学习和成长,成为具身 AI 中的开放式学习者。 ## 展望未来:通向通用具身智能的旅程 SIMA 2 在多样化游戏环境中运行的能力是通用智能的关键试验场,使智能体能够掌握技能、练习复杂推理,并通过自主游戏持续学习。 虽然 SIMA 2 是迈向通用、交互式、具身智能的重要一步,但它本质上是一项研究努力,其当前局限性凸显了未来工作的关键领域。我们发现智能体仍面临需要大量多步推理和目标验证的极长期、复杂任务的挑战。SIMA 2 的交互记忆也相对较短——它必须使用有限的上下文窗口来实现低延迟交互。最后,通过键盘和鼠标接口执行精确的低级动作,以及对复杂 3D 场景实现稳健的视觉理解,仍然是整个领域持续解决的开放性问题。 这项研究为面向行动的 AI 新路径提供了根本性验证。SIMA 2 证实,一个为广泛能力而训练的 AI,利用多样化的多世界数据和 Gemini 的强大推理能力,能够成功将许多专门系统的能力统一为一个连贯的通用智能体。 SIMA 2 也为机器人技术的应用提供了强有力的路径。它学到的技能——从导航和工具使用到协作任务执行——是未来物理世界 AI 助手所需智能物理具身的基本构建模块。 ## 负责任地开发 SIMA 2 是一个交互式、以人为中心的智能体,与之互动充满乐趣,尤其是它以娱乐方式解释自身推理时。与所有先进和基础技术一样,我们从一开始就致力于负责任地开发 SIMA 2。这尤其适用于其技术创新,特别是自我改进能力。 在构建 SIMA 2 的过程中,我们与负责任开发与创新团队紧密合作。随着我们继续探索潜在应用,我们将 SIMA 2 作为有限研究预览发布,并向一小批学者和游戏开发者提供早期访问。这种方法使我们能够在探索这一新领域时收集关键反馈和跨学科视角,并继续构建对风险及其适当缓解措施的理解。我们期待与社区进一步合作,以负责任的方式发展这项技术。 了解更多关于 SIMA 的信息 ## 致谢 本研究由 SIMA 2 团队开发:Maria Abi Raad、John Agapiou、Frederic Besse、Andrew Bolt、Sarah Chakera、Harris Chan、Jeff Clune、Alexandra Cordell、Martin Engelcke、Ryan Faulkner、Maxime Gazeau、Arne Olav Hallingstad、Tim Harley、Ed Hirst、Drew Hudson、Laura Kampis、Sheleem Kashem、Thomas Keck、Matija Kecman、Oscar Knagg、Alexander Lerchner、Bonnie Li、Yulan Liu、Cong Lu、Maria Loks-Thompson、Joseph Marino、Kay McKinney、Piermaria Mendolicchio、Anna Mitenkova、Alexandre Moufarek、Fabio Pardo、Ollie Purkiss、David Reichert、John Reid、Tyson Roberts、Daniel P. Sawyer、Tim Scholtes、Daniel Slater、Hubert Soyer、Kaustubh Sridhar、Peter Stys、Tayfun Terzi、Davide Vercelli、Bojan Vujatovic、Jane X. Wang、Luyu Wang、Duncan Williams 和 Lei M. Zhang。 感谢以下人员在领导、指导和支持方面的贡献:Satinder Singh Baveja、Adrian Bolton、Zoubin Ghahramani、Raia Hadsell、Demis Hassabis、Shane Legg、Volodymyr Mnih 和 Daan Wierstra。 衷心感谢部分贡献者和过往成员:Alex Cullum、Karol Gregor、Rosemary Ke、Junkyung Kim、Matthew Jackson、Andrew Lampinen、Loic Matthey、Hannah Openshaw 和 Zhengdong Wang。 特别感谢所有与我们合作的游戏开发商:Coffee Stain(*Valheim、Satisfactory、Goat Simulator 3*)、Foulball Hangover(*Hydroneer*)、Hello Games(*No Man's Sky*)、Keen Software House(*Space Engineers*)、RubberbandGames(*Wobbly Life*)、Strange Loop Games(*Eco*)、Thunderful Games(*ASKA、The Gunk、Steamworld Build*)、Digixart(*Road 96*),以及 Tuxedo Labs & Saber Interactive(*Teardown*)。 感谢 Vika Koriakin、Duncan Smith、Nilesh Ray、Matt Miller、Leen Verburgh、Ashyana Kachra、Phil Esposito、Dimple Vijaykumar、Piers Wingfield、Lucie Kerley 在开发和完善本项目关键组件方面的宝贵合作。 我们还要感谢 Jack Parker-Holder、Shlomi Fruchter 及 Genie 团队其他成员提供 Genie 3 模型的访问权限。 我们要感谢 Google 和 Google DeepMind 众多团队对此项工作的贡献,包括法律、营销、传播、责任与安全委员会、负责任开发与创新、政策、战略与运营,以及我们的业务和企业发展团队。我们还要感谢所有未在此明确提及的 GDM 团队的持续支持。 最后,我们将这项工作献给我们的同事 Felix Hill 和 Fabio Pardo,他们对我们领域的贡献继续激励着我们。 ### Genie 3 ### Genie 3:一个能够生成多种交互环境的通用世界模型 ### Gemini Robotics:1.5 将 AI 智能体带入物理世界 ### 面向 3D 虚拟环境的通用 AI 智能体

相似文章

推出 Gemini 2.0:我们为智能体时代打造的新型 AI 模型

Google DeepMind Blog

Google DeepMind 推出 Gemini 2.0,这是一款新型智能体 AI 模型,具备原生图像和音频输出、增强的工具使用能力和多模态功能,专为下一代 AI 智能体设计。Gemini 2.0 Flash 现已向开发者推出,计划于 2025 年初实现更广泛的可用性。

Gemini Robotics 1.5 将 AI 智能体带入物理世界

Google DeepMind Blog

Google DeepMind 推出 Gemini Robotics 1.5 和 Gemini Robotics-ER 1.5,推进了物理 AI 智能体的发展,这些智能体能够感知、规划、思考和行动来完成复杂的多步骤任务。Gemini Robotics-ER 1.5 现已通过 Gemini API 向开发者提供。

我们构建通用AI助手的愿景

Google DeepMind Blog

Google DeepMind 宣布计划将 Gemini 2.5 Pro 扩展为通用AI助手,具备世界建模、规划和模拟世界各个方面的能力。该愿景整合了来自 AlphaGo、Genie 2 及其他项目的突破性进展,旨在推进人工通用智能(AGI)的发展。

Gemini Robotics 将 AI 引入物理世界

Google DeepMind Blog

Google DeepMind 推出 Gemini Robotics,这是一个基于 Gemini 2.0 的视觉-语言-动作模型,可以控制物理机器人,具有更强的通用性、交互性和灵巧性。该公司还推出了用于空间推理的 Gemini Robotics-ER,并与 Apptronik 合作开发人形机器人。

Gemini 2.5:我们最智能的AI模型

Google DeepMind Blog

Google推出了Gemini 2.5,这是其最智能的AI模型。Gemini 2.5 Pro Experimental在LMArena基准测试中领先优势显著,并通过改进的思维模型架构展现了增强的推理和编码能力。