Genie 3:世界模型的新前沿
摘要
DeepMind 发布 Genie 3,一个通用世界模型,能够从文本提示生成交互式环境,分辨率达 720p、帧率 24fps,相比前代版本具有更好的一致性和实时交互能力。
Genie 3 可以生成动态世界,你能够以每秒 24 帧的速度实时探索,分辨率为 720p,可以保持数分钟的一致性。
查看缓存全文
缓存时间: 2026/04/20 08:35
# Genie 3:世界模型的新前沿
来源:https://deepmind.google/blog/genie-3-a-new-frontier-for-world-models/
今天,我们宣布推出 Genie 3,一个通用世界模型,能够生成前所未有的多样化交互式环境。
Genie 3 可以根据文本提示生成动态世界,你可以以 24 帧/秒的速度实时导航,分辨率为 720p,并能保持几分钟的一致性。
## 朝向世界模拟的方向
在 Google DeepMind,我们在模拟环境研究中已经进行了超过十年的开创性工作,从训练智能体掌握实时战略游戏 (https://deepmind.google/discover/blog/alphastar-mastering-the-real-time-strategy-game-starcraft-ii/?utm_source=deepmind.google&utm_medium=referral&utm_campaign=gdm&utm_content=&utm_source=deepmind.google&utm_medium=referral&utm_campaign=gdm&utm_content=) 到开发用于开放式学习 (https://deepmind.google/discover/blog/generally-capable-agents-emerge-from-open-ended-play/?utm_source=deepmind.google&utm_medium=referral&utm_campaign=gdm&utm_content=) 和机器人技术 (https://deepmind.google/discover/blog/from-motor-control-to-embodied-intelligence/?utm_source=deepmind.google&utm_medium=referral&utm_campaign=gdm&utm_content=) 的模拟环境。这项工作推动了我们世界模型的发展,即能够利用对世界的理解来模拟其各个方面的 AI 系统,使智能体能够预测环境如何演变以及它们的行动如何影响环境。
世界模型也是通往 AGI 的关键踏脚石,因为它们使得在无限的丰富模拟环境课程中训练 AI 智能体成为可能。去年我们推出了第一个基础世界模型 Genie 1 (https://deepmind.google/research/publications/60474/?utm_source=deepmind.google&utm_medium=referral&utm_campaign=gdm&utm_content=&utm_source=deepmind.google&utm_medium=referral&utm_campaign=gdm&utm_content=) 和 Genie 2 (https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/?utm_source=deepmind.google&utm_medium=referral&utm_campaign=gdm&utm_content=&utm_source=deepmind.google&utm_medium=referral&utm_campaign=gdm&utm_content=),它们可以为智能体生成新环境。我们还继续通过 Veo 2 和 Veo 3 模型推进视频生成技术的发展,这些模型对直观物理有着深刻的理解。
这些模型中的每一个都标志着世界模拟不同能力的进展。Genie 3 是我们第一个允许实时交互的世界模型,同时相比 Genie 2 改进了一致性和真实感。
- 能力 (https://deepmind.google/blog/genie-3-a-new-frontier-for-world-models/#capabilities)
- 具体化智能体研究 (https://deepmind.google/blog/genie-3-a-new-frontier-for-world-models/#embodied-agent-research)
- 局限性 (https://deepmind.google/blog/genie-3-a-new-frontier-for-world-models/#limitations)
- 责任 (https://deepmind.google/blog/genie-3-a-new-frontier-for-world-models/#responsibility)
- 后续步骤 (https://deepmind.google/blog/genie-3-a-new-frontier-for-world-models/#next-steps)
## Genie 3 的能力包括:
以下是来自 Genie 3 的实时交互录制。
### 建模世界的物理属性
体验自然现象如水和光线,以及复杂的环境相互作用。
### 模拟自然世界
生成充满活力的生态系统,从动物行为到复杂的植物生命。
### 建模动画和虚构
开启想象力,创作奇幻场景和富有表现力的动画角色。
### 探索地点和历史设定
超越地理和时间界限,探索地点和过去的时代。
### 推进实时能力的前沿
在 Genie 3 中实现高度可控性和实时交互性需要重大的技术突破。在每一帧的自回归生成过程中,模型必须考虑随时间增长的先前生成的轨迹。例如,如果用户在一分钟后回访某个地点,模型必须参考一分钟前的相关信息。为了实现实时交互,当新的用户输入到达时,这一计算必须每秒发生多次。
### 长时间范围内的环保一致性
为了使 AI 生成的世界沉浸感强,它们必须在长时间范围内保持物理一致性。然而,自回归生成环境通常比生成整个视频更难,因为不准确性往往会随着时间累积。尽管存在这一挑战,Genie 3 环境在几分钟内仍保持基本一致,视觉记忆可以追溯到一分钟之前。
*建筑物左边的树木在整个交互过程中保持一致,即使它们进出视野。*
Genie 3 的一致性是一种涌现能力。NeRFs 和高斯泼溅等其他方法也允许一致的可导航 3D 环境,但依赖于显式 3D 表示的提供。相比之下,Genie 3 生成的世界要动态得多、更丰富,因为它们是根据世界描述和用户操作逐帧创建的。
**提示词:**第一人称视角无人机视频。高速飞行进入并沿着冰岛狭窄峡谷,底部有河流,岩石上覆盖苔藓,金色时刻,真实世界
### 可提示的世界事件
除了导航输入外,Genie 3 还支持更具表现力的基于文本的交互形式,我们称之为*可提示的世界事件*。
可提示的世界事件使得改变生成的世界成为可能,例如改变天气条件或引入新的物体和角色,增强了导航控制的体验。
这一能力也增加了反事实或"假设"场景的广度,这些场景可被学习经验的智能体用来处理意外情况。
**选择一个世界设定。然后选择一个事件,看看 Genie 3 如何创造它。**
### 为具体化智能体研究提供动力
为了测试 Genie 3 创建的世界与未来智能体训练的兼容性,我们为我们最近版本的 SIMA 智能体 (https://deepmind.google/discover/blog/sima-generalist-ai-agent-for-3d-virtual-environments/?utm_source=deepmind.google&utm_medium=referral&utm_campaign=gdm&utm_content=)(我们用于 3D 虚拟环境的通用智能体)生成了世界。在每个世界中,我们指示智能体追求一组不同的目标,它通过向 Genie 3 发送导航操作来实现这些目标。与任何其他环境一样,Genie 3 不知道智能体的目标,而是根据智能体的行动模拟未来。
**选择一个世界设定。然后选择你想让智能体实现的目标,看看它如何完成目标。**
由于 Genie 3 能够保持一致性,现在可以执行更长的操作序列,实现更复杂的目标。我们期待这项技术在推动 AGI 发展过程中发挥关键作用,智能体也将在世界中扮演更大的角色。
## 局限性
虽然 Genie 3 推进了世界模型能力的边界,但承认其当前的局限性很重要:
- **有限的动作空间**。虽然可提示的世界事件允许广泛的环境干预,但它们不一定由智能体本身执行。智能体能直接执行的操作范围目前受到限制。
- **其他智能体的交互和模拟**。准确建模共享环境中多个独立智能体之间的复杂交互仍然是一个正在进行的研究挑战。
- **真实世界位置的准确表示**。Genie 3 目前无法以完美的地理准确度模拟真实世界位置。
- **文本呈现**。清晰可读的文本通常仅在输入世界描述中提供时才生成。
- **有限的交互持续时间**。该模型目前可支持几分钟的持续交互,而非数小时。
## 责任
我们认为基础技术从一开始就需要深刻的责任承诺。Genie 3 中的技术创新,特别是其开放式和实时能力,引入了安全和责任的新挑战。为了解决这些独特的风险,同时旨在最大化效益,我们与负责任发展与创新团队密切合作。
在 Google DeepMind,我们致力于以放大人类创造力、限制意外影响的方式开发我们一流的模型。随着我们继续探索 Genie 的潜在应用,我们宣布 Genie 3 作为有限研究预览版,为少数学术界和创意工作者提供早期访问权限。这种方法使我们能够在探索这一新前沿和继续加深对风险及其适当缓解措施的理解时,收集关键反馈和跨学科观点。我们期待与社区进一步合作,以负责任的方式开发这项技术。
## 后续步骤
我们认为 Genie 3 是世界模型的重要时刻,它将开始对 AI 研究和生成媒体的许多领域产生影响。为此,我们正在探索未来如何向更多测试人员提供 Genie 3。
Genie 3 可以为教育和培训创造新机会,帮助学生学习和专家获得经验。它不仅可以为机器人和自主系统等智能体的训练提供广阔的空间,Genie 3 还可以使评估智能体的性能和探索其弱点成为可能。
在每一步,我们都在探索我们工作的影响,并为人类利益安全负责地开发它。
**请使用以下 BibTex 引用**
## 致谢
Genie 3 的实现得益于 Phil Ball、Jakob Bauer、Frank Belletti、Bethanie Brownfield、Ariel Ephrat、Shlomi Fruchter、Agrim Gupta、Kristian Holsheimer、Aleks Holynski、Jiri Hron、Christos Kaplanis、Marjorie Limont、Matt McGill、Yanko Oliveira、Jack Parker-Holder、Frank Perbet、Guy Scully、Jeremy Shar、Stephen Spencer、Omer Tov、Ruben Villegas、Emma Wang 和 Jessica Yung 的关键研究和工程贡献。
我们感谢 Andrew Audibert、Cip Baetu、Jordi Berbel、David Bridson、Jake Bruce、Gavin Buttimore、Sarah Chakera、Bilva Chandra、Paul Collins、Alex Cullum、Bogdan Damoc、Vibha Dasagi、Maxime Gazeau、Charles Gbadamosi、Shan Han、Woohyun Han、Ed Hirst、Ashyana Kachra、Lucie Kerley、Kristian Kjems、Eva Knoepfel、Vika Koriakin、Jessica Lo、Cong Lu、Zeb Mehring、Alexandre Moufarek、Henna Nandwani、Valeria Oliveira、Fabio Pardo、Jane Park、Andrew Pierson、Ben Poole、Helen Ran、Nilesh Ray、Tim Salimans、Manuel Sanchez、Igor Saprykin、Amy Shen、Sailesh Sidhwani、Duncan Smith、Joe Stanton、Hamish Tomlinson、Dimple Vijaykumar、Luyu Wang、Piers Wingfield、Nat Wong、Keyang Xu、Christopher Yew、Nick Young 和 Vadim Zubov 的宝贵合作,他们在开发和完善该项目的关键组件中提供了帮助。
感谢 Tim Rocktäschel、Satinder Singh、Adrian Bolton、Inbar Mosseri、Aäron van den Oord、Douglas Eck、Dumitru Erhan、Raia Hadsell、Zoubin Gharamani、Koray Kavukcuoglu 和 Demis Hassabis 在整个研究过程中提供的深刻指导和支持。
特色视频由 Suz Chambers、Matthew Carey、Alex Chen、Andrew Rhee、JR Schmidt、Scotch Johnson、Heysu Oh、Kaloyan Kolev、Arden Schager、Sam Lawton、Hana Tanimura、Zach Velasco、Ben Wiley 和 Dev Valladares 制作。包括由 Signe Nørly、Eleni Shaw、Andeep Toor、Gregory Shaw 和 Irina Blok 生成的样本。
我们感谢 Frederic Besse、Tim Harley 以及 SIMA 团队其他成员提供最近版本的智能体。
最后,我们感谢 Mohammad Babaeizadeh、Gabe Barth-Maron、Parker Beak、Jenny Brennan、Tim Brooks、Max Cant、Harris Chan、Jeff Clune、Kaspar Daugaard、Dumitru Erhan、Ashley Feden、Simon Green、Nik Hemmings、Michael Huber、Jony Hudson、Dirichi Ike-Njoku、Hernan Moraldo、Bonnie Li、Simon Osindero、Georg Ostrovski、Ryan Poplin、Alex Rizkowsky、Giles Ruscoe、Ana Salazar、Guy Simmons、Jeff Stanway、Metin Toksoz-Exley、Xinchen Yan、Petko Yotov、Mingda Zhang 和 Martin Zlocha 的见解和支持。
### Genie 3
### 如何使用 Genie 创建有效提示
### SIMA 2:在虚拟 3D 世界中与你一起玩耍、推理和学习的智能体
### Genie 2:大规模基础世界模型
### 3D 虚拟环境的通用 AI 智能体
相似文章
Project Genie:探索无限交互世界的实验性项目
Google 推出了 Project Genie,这是一个面向 Google AI Ultra 订阅用户的实验性原型,允许用户使用 Genie 3 创建、探索和重新混合无限交互世界。
谷歌的Genie世界模型现在可以通过街景模拟真实街道
谷歌DeepMind将街景数据集成到其Genie世界模型中,实现真实街道的交互式模拟,应用于机器人、自动驾驶和用户体验等领域。
Project Genie | Shine and Seek
Google DeepMind 的 Project Genie 是一个统一的世界模型,它将多样化的电子游戏视为条件视频预测任务,从而生成并与这些游戏进行交互。
谷歌的Genie 3将文本提示转化为可供探索的可玩开放世界。目前还很粗糙。游戏的未来,还是技术演示?
谷歌的Genie 3可以根据文本提示或图像生成一个可玩的开放世界,但目前在帧率低、存在漏洞等方面还很粗糙,引发了关于它是否会威胁传统游戏开发还是停留在演示阶段的争论。
Claude Opus 4.7、Qwen 3.6、Happy Oyster、实时3D世界、全新Google TTS:AI新闻
Anthropic、阿里巴巴、谷歌等巨头集中发布重磅模型——Claude Opus 4.7、Qwen 3.6、情感丰富的Google TTS,还有仅1.58-bit的手机LLM与实时3D世界生成器,同时开放视频、VR及角色创作工具。