Google Just Turned Street View Into a Video Game
摘要
Google 在 IO 大会上发布的 Genie 3 实时视频生成器,可将 Google Maps 街景图像转换为可交互的 3D 世界,让用户像玩游戏一样自由探索真实场景。
Could this be how GTA 7 will be made given that it is probably almost 20 years away?
查看缓存全文
缓存时间: 2026/05/20 10:29
### TL;DR
Google 在 IO 大会上发布的 Genie 3 实时视频生成器,可以将 Google Maps 街景图像作为底图,生成可交互的 3D 世界,让用户像玩游戏一样在真实场景中自由探索。
---
## 从全息甲板到现实:Genie 3 让街景“活”起来
我一直想在现实世界里拥有一副全息甲板——把复杂的现实放进模拟器里,让你在里面为所欲为。Google 在 IO 大会上公布的 Genie 3,正是朝着这个方向迈出的一步。Genie 3 是 Google 的实时视频生成器,而现在你可以把它锚定在 Google Maps 的图像上。这意味着你可以引用某个物理区域的真实街景照片,并用它作为生成内容的基础。
我提前获得了访问权限,所以让我给你演示一下它是如何工作的,同时展示一些不同的例子。最重要的是,这项技术未来会走向何方,因为我相信这让我们清晰地看到了未来交互式媒体的样貌——它是锚定在物理世界中的。
---
## 工作原理:选择位置,实时生成
这是 Genie 3 的界面。现在,这里有个按钮,写着“从 Google Maps 选择位置”。工作原理很简单:系统引用真实世界的全景图像,然后用自回归视频模型即时生成下一帧,形成连贯的交互。
---
## 演示案例:从 GTA 赛车到浣熊滑板车
### GTA 主题 F1 赛车
我第一个想做的事情就是模拟一下类似 GTA 的游戏。也许 GTA 7 实际上看起来就像这样,对吧?我基本上就是用提示词让这个系统生成一辆 Google Maps 主题的 F1 赛车,然后在拉斯维加斯大道上飞驰。你可以看到它有个速度表。系统甚至自带了检查点。相当狂野。
这特别酷,因为它只是引用了全景图像。他们甚至还没有把航拍图像加进去。等到加入了航拍图像,你就能生成一个逼真的、几乎与现实一比一对应的场景,并在其中自由导航。
### 浣熊骑滑板车
在这个例子里,我用提示词让一只浣熊骑着滑板车在艺术宫周围转悠。你看那里,那就是艺术宫。你可以看到这东西在飞速移动。还有阴影捕捉效果。酷的是,这甚至不是高斯溅射,对吧?Google 甚至不需要把它转成高斯溅射。这仅仅是全景图像加上这个看过 YouTube 上大量视频的自回归视频模型。它就能即时为你生成一切。
### 艺术宫内部飞行
我想试试另一只动物,在艺术宫内部跳来跳去。所以我选了另一个全景图,让我基本上可以飞着看。
### Pegman 小人跑起来
作为前 Google Maps 员工,我必须致敬一下,让 Pegman 小人也在渡轮大厦附近跑起来。你可以看到这看起来有多酷。再说一次,这是实时视频生成,对吧?如果你想为一个想法制作原型,比如说,打算以后在游戏引擎或用高斯溅射真正实现它,你可以先在这里试试,感受一下它是什么样子。
### 奥斯汀 Ladybird 湖
我现在住在德克萨斯州奥斯汀,所以我得试着重现一个非常熟悉的场景:一群纹身男在 Ladybird 湖边跑来跑去。我觉得这生成得特别特别好,因为有趣的是,那边就是 Google 的大楼。当我转到这边给你看天际线时,你能看到它实际上有多逼真。
当然,我想做的一件事是,Ladybird 湖其实有点脏。如果你住在奥斯汀,你一般不想跳进去。但也许作为化身,我可以。所以,现在我们到了水里,我还想试着在 Ladybird 湖上开这艘船。酷的是,Google 有很多这种特殊采集。这是用湖里的船做的一次特殊采集。所以它完全就是这座桥下面的样子。
### 室内空间与白宫
但这不仅仅是户外的特殊采集。街景也有很多室内的特殊采集。这是白宫。我真的在白宫里走来走去。
### 非逼真的创意玩法
顺便说一句,你不一定非要做得逼真,对吧?如果你想,比如把金门大桥放到水下,然后突然变成一个潜水员,你可以这么做。如果你想想象一个城市被大雪完全覆盖会是什么样子,你也可以做到。
### 历史图像
就像我在之前的 Genie 3 深度解读中展示的,在现实世界之上锚定内容层,你可以做很多事情,比如甚至用非常古老的历史采集。比如这张旧金山的航拍照片,然后你可以在里面飞着看。
---
## 技术解读:为什么这不仅仅是游戏
你现在可能在想,这到底跟我有什么关系?嗯,世界模型现在是个很模糊的词,对吧?因为每个人都声称他们在构建的是世界模型。有搞 3D 高斯溅射的那群人。显然,还有老派的 SLAM 计算机视觉那边的人。有 JEPA 那帮人跟大语言模型那帮人吵得不可开交。当然,这边还有 Google Maps。
在这个例子里,我们看到的基本上就是 Google Maps 和 Video Gen 生了个孩子。事实上,几个月前,有一篇论文叫《索尔世界模型》(Soleworld Model),基本就是在做这个。怎么做?把一个视频生成模型——不是实时的自回归视频生成器,而是一个扩散模型——然后用街景来条件化这些生成内容。基本上想法就是,你有了所有的街景图像,现在你可以用这些视频模型让一切动起来。
当然,这样做的好处是,你现在可以拥有自由漫游的模拟,对吧?你再也不受限于街景采集的路径,可以远远超出传统 3D 重建所能达到的范围。当然,既然现在是视频生成器,你还可以给它添加疯狂的东西,比如哥斯拉突然出现,或者巨大的海啸向你扑来,或者外星传送门打开。你甚至可以把白天变成夜晚,对吧?所以,通过把现实带入潜在空间,你现在可以编辑它,做一些用传统工具很难或很繁琐的事情,而且只需要通过文本提示、图像参考等。
---
## 当前局限与未来方向
所以,我不认为 Google 今天展示的东西在底层是这样做的,但我怀疑这会是它下一步发展的方向。例如,在这里你可以看到最近的街景全景图。假设你正在沿着一条轨迹移动。这个系统会检索最近的全景图,并持续把它放入上下文。这样模型就知道它物理上周围有什么,不会凭空编造。
目前看来,Google 只是加载了最近的一组全景图,这说得通,因为在这种情况下是实时视频生成,对吧?这个模型是自回归地预测下一帧。所以把所有东西加载到上下文里可能很费劲,但我猜这就是下一步的发展方向。这就是为什么这里完全不对。当我走到艺术宫的另一边,比如这边的圆顶,后面并没有这些房子。如果他们采用了类似的方法,按理说会加载那些全景图。
你现在可能在想,为什么不用实际的高斯溅射或者像 World Labs 这样的技术来创建一个静态场景,然后在里面放一个 3D 模型呢?是的,你可以这样做。当你需要那种级别的控制时,这类流程非常棒。但你可能注意到了,这个场景里的一切都是静态的,对吧?而现实世界则充满了生命和运动。所以当你把最先进的这些生成式 AI 模型和真实世界的图像结合起来,你才能真正做到两者兼得。
我还要指出一点,就是现在的质量。目前,Parker 说这些实时的视频模型大概比离线的视频模型落后一两个版本。所以 V3.1 会提供更好的生成质量。但我们现在有了交互性,对吧?这让你可以设定你想要的特定镜头角度,然后你总可以在其他一些模型里把它们放大提升质量。
---
## 总结:GTA 7 会是这样吗?
总之,这跟平时内容有点不同,但这是 IO 大会上我不得不报道的东西之一,尤其是我有提前访问权限。嗯,希望你喜欢,如果你对这项技术的走向有什么想法,我很想听听。你觉得 GTA 7 真的会像这样吗?在下面评论里告诉我。
---
**Source:** [Google Just Turned Street View Into a Video Game – SnowmanRandom](https://youtube.com/watch?si=wgJErm9jJ8v4FTCt&v=bxv4IkobUPI)
相似文章
谷歌的Genie世界模型现在可以通过街景模拟真实街道
谷歌DeepMind将街景数据集成到其Genie世界模型中,实现真实街道的交互式模拟,应用于机器人、自动驾驶和用户体验等领域。
利用 Project Genie 和 Street View 模拟真实世界地点
Project Genie 是 Google 的通用世界模型,现已与 Street View 集成,能够基于真实地点创建交互式环境,可供 Google AI Ultra 订阅用户使用。
@GoogleDeepMind:Project Genie中的街景图像正在向全球所有符合条件的Google AI Ultra订阅者(18岁以上)推出。立即尝试…
Google DeepMind正在向全球符合条件的Google AI Ultra订阅者推出Project Genie中的街景图像,使他们能够探索美国各地并生成风格。
谷歌的Genie 3将文本提示转化为可供探索的可玩开放世界。目前还很粗糙。游戏的未来,还是技术演示?
谷歌的Genie 3可以根据文本提示或图像生成一个可玩的开放世界,但目前在帧率低、存在漏洞等方面还很粗糙,引发了关于它是否会威胁传统游戏开发还是停留在演示阶段的争论。
Project Genie:探索无限交互世界的实验性项目
Google 推出了 Project Genie,这是一个面向 Google AI Ultra 订阅用户的实验性原型,允许用户使用 Genie 3 创建、探索和重新混合无限交互世界。