Google Just Turned Street View Into a Video Game

Reddit r/singularity 2026/05/20 07:56 产品

google-maps street-view genie-3 video-generation interactive-3d real-time ai-gaming

摘要

Google 在 IO 大会上发布的 Genie 3 实时视频生成器，可将 Google Maps 街景图像转换为可交互的 3D 世界，让用户像玩游戏一样自由探索真实场景。

Could this be how GTA 7 will be made given that it is probably almost 20 years away?

查看原文

查看缓存全文

缓存时间: 2026/05/20 10:29

### TL;DR Google 在 IO 大会上发布的 Genie 3 实时视频生成器，可以将 Google Maps 街景图像作为底图，生成可交互的 3D 世界，让用户像玩游戏一样在真实场景中自由探索。 --- ## 从全息甲板到现实：Genie 3 让街景“活”起来我一直想在现实世界里拥有一副全息甲板——把复杂的现实放进模拟器里，让你在里面为所欲为。Google 在 IO 大会上公布的 Genie 3，正是朝着这个方向迈出的一步。Genie 3 是 Google 的实时视频生成器，而现在你可以把它锚定在 Google Maps 的图像上。这意味着你可以引用某个物理区域的真实街景照片，并用它作为生成内容的基础。我提前获得了访问权限，所以让我给你演示一下它是如何工作的，同时展示一些不同的例子。最重要的是，这项技术未来会走向何方，因为我相信这让我们清晰地看到了未来交互式媒体的样貌——它是锚定在物理世界中的。 --- ## 工作原理：选择位置，实时生成这是 Genie 3 的界面。现在，这里有个按钮，写着“从 Google Maps 选择位置”。工作原理很简单：系统引用真实世界的全景图像，然后用自回归视频模型即时生成下一帧，形成连贯的交互。 --- ## 演示案例：从 GTA 赛车到浣熊滑板车 ### GTA 主题 F1 赛车我第一个想做的事情就是模拟一下类似 GTA 的游戏。也许 GTA 7 实际上看起来就像这样，对吧？我基本上就是用提示词让这个系统生成一辆 Google Maps 主题的 F1 赛车，然后在拉斯维加斯大道上飞驰。你可以看到它有个速度表。系统甚至自带了检查点。相当狂野。这特别酷，因为它只是引用了全景图像。他们甚至还没有把航拍图像加进去。等到加入了航拍图像，你就能生成一个逼真的、几乎与现实一比一对应的场景，并在其中自由导航。 ### 浣熊骑滑板车在这个例子里，我用提示词让一只浣熊骑着滑板车在艺术宫周围转悠。你看那里，那就是艺术宫。你可以看到这东西在飞速移动。还有阴影捕捉效果。酷的是，这甚至不是高斯溅射，对吧？Google 甚至不需要把它转成高斯溅射。这仅仅是全景图像加上这个看过 YouTube 上大量视频的自回归视频模型。它就能即时为你生成一切。 ### 艺术宫内部飞行我想试试另一只动物，在艺术宫内部跳来跳去。所以我选了另一个全景图，让我基本上可以飞着看。 ### Pegman 小人跑起来作为前 Google Maps 员工，我必须致敬一下，让 Pegman 小人也在渡轮大厦附近跑起来。你可以看到这看起来有多酷。再说一次，这是实时视频生成，对吧？如果你想为一个想法制作原型，比如说，打算以后在游戏引擎或用高斯溅射真正实现它，你可以先在这里试试，感受一下它是什么样子。 ### 奥斯汀 Ladybird 湖我现在住在德克萨斯州奥斯汀，所以我得试着重现一个非常熟悉的场景：一群纹身男在 Ladybird 湖边跑来跑去。我觉得这生成得特别特别好，因为有趣的是，那边就是 Google 的大楼。当我转到这边给你看天际线时，你能看到它实际上有多逼真。当然，我想做的一件事是，Ladybird 湖其实有点脏。如果你住在奥斯汀，你一般不想跳进去。但也许作为化身，我可以。所以，现在我们到了水里，我还想试着在 Ladybird 湖上开这艘船。酷的是，Google 有很多这种特殊采集。这是用湖里的船做的一次特殊采集。所以它完全就是这座桥下面的样子。 ### 室内空间与白宫但这不仅仅是户外的特殊采集。街景也有很多室内的特殊采集。这是白宫。我真的在白宫里走来走去。 ### 非逼真的创意玩法顺便说一句，你不一定非要做得逼真，对吧？如果你想，比如把金门大桥放到水下，然后突然变成一个潜水员，你可以这么做。如果你想想象一个城市被大雪完全覆盖会是什么样子，你也可以做到。 ### 历史图像就像我在之前的 Genie 3 深度解读中展示的，在现实世界之上锚定内容层，你可以做很多事情，比如甚至用非常古老的历史采集。比如这张旧金山的航拍照片，然后你可以在里面飞着看。 --- ## 技术解读：为什么这不仅仅是游戏你现在可能在想，这到底跟我有什么关系？嗯，世界模型现在是个很模糊的词，对吧？因为每个人都声称他们在构建的是世界模型。有搞 3D 高斯溅射的那群人。显然，还有老派的 SLAM 计算机视觉那边的人。有 JEPA 那帮人跟大语言模型那帮人吵得不可开交。当然，这边还有 Google Maps。在这个例子里，我们看到的基本上就是 Google Maps 和 Video Gen 生了个孩子。事实上，几个月前，有一篇论文叫《索尔世界模型》(Soleworld Model)，基本就是在做这个。怎么做？把一个视频生成模型——不是实时的自回归视频生成器，而是一个扩散模型——然后用街景来条件化这些生成内容。基本上想法就是，你有了所有的街景图像，现在你可以用这些视频模型让一切动起来。当然，这样做的好处是，你现在可以拥有自由漫游的模拟，对吧？你再也不受限于街景采集的路径，可以远远超出传统 3D 重建所能达到的范围。当然，既然现在是视频生成器，你还可以给它添加疯狂的东西，比如哥斯拉突然出现，或者巨大的海啸向你扑来，或者外星传送门打开。你甚至可以把白天变成夜晚，对吧？所以，通过把现实带入潜在空间，你现在可以编辑它，做一些用传统工具很难或很繁琐的事情，而且只需要通过文本提示、图像参考等。 --- ## 当前局限与未来方向所以，我不认为 Google 今天展示的东西在底层是这样做的，但我怀疑这会是它下一步发展的方向。例如，在这里你可以看到最近的街景全景图。假设你正在沿着一条轨迹移动。这个系统会检索最近的全景图，并持续把它放入上下文。这样模型就知道它物理上周围有什么，不会凭空编造。目前看来，Google 只是加载了最近的一组全景图，这说得通，因为在这种情况下是实时视频生成，对吧？这个模型是自回归地预测下一帧。所以把所有东西加载到上下文里可能很费劲，但我猜这就是下一步的发展方向。这就是为什么这里完全不对。当我走到艺术宫的另一边，比如这边的圆顶，后面并没有这些房子。如果他们采用了类似的方法，按理说会加载那些全景图。你现在可能在想，为什么不用实际的高斯溅射或者像 World Labs 这样的技术来创建一个静态场景，然后在里面放一个 3D 模型呢？是的，你可以这样做。当你需要那种级别的控制时，这类流程非常棒。但你可能注意到了，这个场景里的一切都是静态的，对吧？而现实世界则充满了生命和运动。所以当你把最先进的这些生成式 AI 模型和真实世界的图像结合起来，你才能真正做到两者兼得。我还要指出一点，就是现在的质量。目前，Parker 说这些实时的视频模型大概比离线的视频模型落后一两个版本。所以 V3.1 会提供更好的生成质量。但我们现在有了交互性，对吧？这让你可以设定你想要的特定镜头角度，然后你总可以在其他一些模型里把它们放大提升质量。 --- ## 总结：GTA 7 会是这样吗？总之，这跟平时内容有点不同，但这是 IO 大会上我不得不报道的东西之一，尤其是我有提前访问权限。嗯，希望你喜欢，如果你对这项技术的走向有什么想法，我很想听听。你觉得 GTA 7 真的会像这样吗？在下面评论里告诉我。 --- **Source:** [Google Just Turned Street View Into a Video Game – SnowmanRandom](https://youtube.com/watch?si=wgJErm9jJ8v4FTCt&v=bxv4IkobUPI)

Google Just Turned Street View Into a Video Game

相似文章

谷歌的Genie世界模型现在可以通过街景模拟真实街道

利用 Project Genie 和 Street View 模拟真实世界地点

@GoogleDeepMind：Project Genie中的街景图像正在向全球所有符合条件的Google AI Ultra订阅者（18岁以上）推出。立即尝试…

谷歌的Genie 3将文本提示转化为可供探索的可玩开放世界。目前还很粗糙。游戏的未来，还是技术演示？

Project Genie：探索无限交互世界的实验性项目

提交意见反馈