谷歌的Genie 3将文本提示转化为可供探索的可玩开放世界。目前还很粗糙。游戏的未来,还是技术演示?
摘要
谷歌的Genie 3可以根据文本提示或图像生成一个可玩的开放世界,但目前在帧率低、存在漏洞等方面还很粗糙,引发了关于它是否会威胁传统游戏开发还是停留在演示阶段的争论。
谷歌的Project Genie本周向全球发布,我一直在思考它。你输入一句话或上传一张图片,它就能实时生成一个你可以真正在其中漫步的开放世界。无需代码,无需游戏引擎。有人制作了一个GTA风格的伊斯坦布尔开放世界,并在里面漫步,行人和交通都会对其做出反应。现实是:它很粗糙。帧率低,响应延迟,可见的漏洞。目前它只是一个技术演示,而不是你能坐下来玩的游戏。但它的发展轨迹才是讨论的焦点。我一直在反复思考。一方面:这标志着传统开发流程终结的开始。如果一句话就能生成一个可探索的世界,那么引擎、资产、工作室都不再是门槛。任何人都能创造世界。另一方面:交互式世界模型很快就会遇到瓶颈。一致性、物体恒存性、保持世界稳定超过几分钟、帧率。它可能只是一个令人印象深刻的技术演示,多年后也未必能成为真正的游戏。我诚实的猜测是,“在生成的世界中漫步”这部分确实是全新的,但从可探索的演示到真正可玩的游戏之间的差距巨大,可能不会像炒作所说的那样迅速弥合。你的立场是什么?在一两年内真正威胁到游戏引擎,还是陷入停滞?你会生成的第一个世界是什么?
相似文章
Project Genie:探索无限交互世界的实验性项目
Google 推出了 Project Genie,这是一个面向 Google AI Ultra 订阅用户的实验性原型,允许用户使用 Genie 3 创建、探索和重新混合无限交互世界。
Genie 3:世界模型的新前沿
DeepMind 发布 Genie 3,一个通用世界模型,能够从文本提示生成交互式环境,分辨率达 720p、帧率 24fps,相比前代版本具有更好的一致性和实时交互能力。
Google Just Turned Street View Into a Video Game
Google 在 IO 大会上发布的 Genie 3 实时视频生成器,可将 Google Maps 街景图像转换为可交互的 3D 世界,让用户像玩游戏一样自由探索真实场景。
@gregpr07: /goal build GTA 6 这是AGI测试吗?一个提示输入 -> 完整可玩游戏输出?单个提示能有多好?http…
一条推文展示了一个演示,仅凭一个提示就能生成一个可玩的开放城市沙盒游戏,让人联想到GTA 6,暗示了AGI级别的能力。
Project Genie | Shine and Seek
Google DeepMind 的 Project Genie 是一个统一的世界模型,它将多样化的电子游戏视为条件视频预测任务,从而生成并与这些游戏进行交互。