世界模型:离真正可用于产品还有多远?
摘要
一位独立开发者正在为孩子打造一款语音优先的学习游戏,他想知道交互式世界模型能否在12–18个月内达到生产可用,还是预渲染素材加实时虚拟形象才是更现实的近期方案。
我是两个孩子的爸爸(8岁和10岁),正在做一款面向6–12岁儿童的语音优先学习游戏。类似《神探卡门》,但孩子亲自进入冒险,与角色对话、推动剧情并学习。目前我用2D Rive动画,由LLM实时驱动反应。孩子们很喜欢,但天花板太低。我真正想要的是实时渲染的角色和世界,让智能体可以即时指挥。因此我一直在关注Genie 3、Odyssey、World Labs,以及虚拟形象方向(Runway、Anam)。我的基本判断是,18个月内,交互式实时世界模型与实时虚拟形象的融合将达到可投产水平。这里有没有人已经在世界模型上实际出货或做原型,而非仅做Demo?12–18个月算合理,还是过于乐观?对于脚本化冒险场景(已知角色、反复出现的世界、叙事节奏),世界模型是不是合适的原语,还是直接用预生成素材拼接+实时虚拟形象层就够了?
相似文章
你认为World Models会通向AGI吗?
讨论World Models(通过学习内部环境表示来模拟物理和规划行动)是否能够克服类似LLMs的被动预测文本模型的局限性,从而通向AGI。
Genie 3:世界模型的新前沿
DeepMind 发布 Genie 3,一个通用世界模型,能够从文本提示生成交互式环境,分辨率达 720p、帧率 24fps,相比前代版本具有更好的一致性和实时交互能力。
@drfeifei: https://x.com/drfeifei/status/2062247238143996275
Fei-Fei Li与World Labs团队提出了世界模型的功能分类法,区分了渲染器、物理引擎以及在强化学习循环中的其他组件,并论证空间智能是人工智能的下一个前沿。
@haider1: Yann LeCun表示,在未来一年到18个月内,我们将拥有一种训练分层世界模型的通用方法……
Yann LeCun预测,在未来12-18个月内,将出现一种训练分层世界模型的通用方法,该方法通过视频和真实世界数据学习,帮助机器人、医疗等领域进行规划,并逐步向通用世界模型扩展。
Decart的新世界模型可以模拟数小时的逼真驾驶——但有一些注意事项
Decart发布了Oasis 3,一个交互式世界模型,能够实时生成逼真的驾驶环境,并通过API提供。该模型针对自动驾驶仿真及其他物理AI应用,利用Decart的优化堆栈实现成本效益。