世界模型:离真正可用于产品还有多远?

Reddit r/singularity 新闻

摘要

一位独立开发者正在为孩子打造一款语音优先的学习游戏,他想知道交互式世界模型能否在12–18个月内达到生产可用,还是预渲染素材加实时虚拟形象才是更现实的近期方案。

我是两个孩子的爸爸(8岁和10岁),正在做一款面向6–12岁儿童的语音优先学习游戏。类似《神探卡门》,但孩子亲自进入冒险,与角色对话、推动剧情并学习。目前我用2D Rive动画,由LLM实时驱动反应。孩子们很喜欢,但天花板太低。我真正想要的是实时渲染的角色和世界,让智能体可以即时指挥。因此我一直在关注Genie 3、Odyssey、World Labs,以及虚拟形象方向(Runway、Anam)。我的基本判断是,18个月内,交互式实时世界模型与实时虚拟形象的融合将达到可投产水平。这里有没有人已经在世界模型上实际出货或做原型,而非仅做Demo?12–18个月算合理,还是过于乐观?对于脚本化冒险场景(已知角色、反复出现的世界、叙事节奏),世界模型是不是合适的原语,还是直接用预生成素材拼接+实时虚拟形象层就够了?
查看原文

相似文章

你认为World Models会通向AGI吗?

Reddit r/ArtificialInteligence

讨论World Models(通过学习内部环境表示来模拟物理和规划行动)是否能够克服类似LLMs的被动预测文本模型的局限性,从而通向AGI。

Genie 3:世界模型的新前沿

Google DeepMind Blog

DeepMind 发布 Genie 3,一个通用世界模型,能够从文本提示生成交互式环境,分辨率达 720p、帧率 24fps,相比前代版本具有更好的一致性和实时交互能力。