世界模型:离真正可用于产品还有多远?

Reddit r/singularity 新闻

摘要

一位独立开发者正在为孩子打造一款语音优先的学习游戏,他想知道交互式世界模型能否在12–18个月内达到生产可用,还是预渲染素材加实时虚拟形象才是更现实的近期方案。

我是两个孩子的爸爸(8岁和10岁),正在做一款面向6–12岁儿童的语音优先学习游戏。类似《神探卡门》,但孩子亲自进入冒险,与角色对话、推动剧情并学习。目前我用2D Rive动画,由LLM实时驱动反应。孩子们很喜欢,但天花板太低。我真正想要的是实时渲染的角色和世界,让智能体可以即时指挥。因此我一直在关注Genie 3、Odyssey、World Labs,以及虚拟形象方向(Runway、Anam)。我的基本判断是,18个月内,交互式实时世界模型与实时虚拟形象的融合将达到可投产水平。这里有没有人已经在世界模型上实际出货或做原型,而非仅做Demo?12–18个月算合理,还是过于乐观?对于脚本化冒险场景(已知角色、反复出现的世界、叙事节奏),世界模型是不是合适的原语,还是直接用预生成素材拼接+实时虚拟形象层就够了?
查看原文

相似文章

Genie 3:世界模型的新前沿

Google DeepMind Blog

DeepMind 发布 Genie 3,一个通用世界模型,能够从文本提示生成交互式环境,分辨率达 720p、帧率 24fps,相比前代版本具有更好的一致性和实时交互能力。

tencent/HY-World-2.0

Hugging Face Models Trending

HY-World 2.0 是腾讯开源的跨模态3D世界模型,能够从文本、图像和视频中重建和生成3D世界,生成可编辑的3D资产(网格/高斯泼溅),效果与闭源方法相当。

零样本世界模型是发展高效的学习者 [R]

Reddit r/MachineLearning

研究人员引入了零样本世界模型(Zero-shot World Models, ZWM),该方法在仅使用极少数据(单个幼儿的视觉经验)且无需特定任务训练的情况下,即可达到与最先进模型相当的视觉能力。这项工作展示了通往数据效率可与人类发展学习效率匹敌的AI系统的路径。