谷歌的Genie 3将文本提示转化为可供探索的可玩开放世界。目前还很粗糙。游戏的未来,还是技术演示?

Reddit r/artificial 模型

摘要

谷歌的Genie 3可以根据文本提示或图像生成一个可玩的开放世界,但目前在帧率低、存在漏洞等方面还很粗糙,引发了关于它是否会威胁传统游戏开发还是停留在演示阶段的争论。

谷歌的Project Genie本周向全球发布,我一直在思考它。你输入一句话或上传一张图片,它就能实时生成一个你可以真正在其中漫步的开放世界。无需代码,无需游戏引擎。有人制作了一个GTA风格的伊斯坦布尔开放世界,并在里面漫步,行人和交通都会对其做出反应。现实是:它很粗糙。帧率低,响应延迟,可见的漏洞。目前它只是一个技术演示,而不是你能坐下来玩的游戏。但它的发展轨迹才是讨论的焦点。我一直在反复思考。一方面:这标志着传统开发流程终结的开始。如果一句话就能生成一个可探索的世界,那么引擎、资产、工作室都不再是门槛。任何人都能创造世界。另一方面:交互式世界模型很快就会遇到瓶颈。一致性、物体恒存性、保持世界稳定超过几分钟、帧率。它可能只是一个令人印象深刻的技术演示,多年后也未必能成为真正的游戏。我诚实的猜测是,“在生成的世界中漫步”这部分确实是全新的,但从可探索的演示到真正可玩的游戏之间的差距巨大,可能不会像炒作所说的那样迅速弥合。你的立场是什么?在一两年内真正威胁到游戏引擎,还是陷入停滞?你会生成的第一个世界是什么?
查看原文

相似文章

Genie 3:世界模型的新前沿

Google DeepMind Blog

DeepMind 发布 Genie 3,一个通用世界模型,能够从文本提示生成交互式环境,分辨率达 720p、帧率 24fps,相比前代版本具有更好的一致性和实时交互能力。

Google Just Turned Street View Into a Video Game

Reddit r/singularity

Google 在 IO 大会上发布的 Genie 3 实时视频生成器,可将 Google Maps 街景图像转换为可交互的 3D 世界,让用户像玩游戏一样自由探索真实场景。

Project Genie | Shine and Seek

YouTube AI Channels

Google DeepMind 的 Project Genie 是一个统一的世界模型,它将多样化的电子游戏视为条件视频预测任务,从而生成并与这些游戏进行交互。