@LiorOnAI: 大多数世界模型预测接下来会发生什么。Sora预测像素,JEPA压缩观察结果。NEO试图弄清楚…

X AI KOLs Following 论文

摘要

NEO是一种新型世界模型,它能够从原始观察中自行发现可重用的解释构建块,无需监督或语言,被选为ICML 2026的口头报告。

大多数世界模型预测接下来会发生什么。 Sora预测像素,JEPA压缩观察结果。 NEO则试图弄清楚某事发生的原因。 例如:给它展示一个形状先向左移动再向下移动,它不会仅仅重建这个运动,而是将“左”和“下”作为独立的可重用构建块学习,然后在其他地方重复使用它们。 NEO不是用一个大的黑箱模型,而是搜索一个由简单可重用步骤组成的简短“程序”来解释它所看到的内容。 有趣之处不在于它学习程序,而在于它自行发现了解释的构建块,没有标签,没有手工编码的符号,仅仅依靠原始观察。
查看原文
查看缓存全文

缓存时间: 2026/07/01 18:13

大多数世界模型预测接下来会发生什么。

Sora预测像素,JEPA压缩观测数据。而NEO则试图理解某件事发生的原因。

示例:向它展示一个形状先向左再向下移动,它不会仅仅重构这个运动,而是学习“向左“和“向下“作为单独可复用的构建块,然后在其他地方复用它们。

NEO不是用一个大型黑盒模型,而是搜索一个由简单可复用步骤组成的简短“程序“来解释它所观察到的。

有趣之处不在于它学习程序,而在于它自主发现了解释的构建块,没有标签,没有手动编码的符号,仅凭原始观察。

Sungjin Ahn (@SungjinAhn_): 🚀 我们推出了 Neural Theorizer (NEO) —— 一种新型世界模型,通过观察学习对世界进行理论推导,无需语言或LLM监督。

被选为ICML 2026口头报告——占投稿论文的0.7%。

论文问:

“理解意味着什么

相似文章

Orca:世界尽在你的脑海中

Hugging Face Daily Papers

本文介绍了Orca,一个世界基础模型,它通过下一状态预测从多模态数据中学习统一的潜在空间,在文本生成、图像预测和具身动作生成等下游任务上优于专门的基线模型。

World Models Explained: What Every AI Is Missing

Reddit r/ArtificialInteligence

文章详细解释了世界模型的概念,将其与LLM对比,介绍了两大阵营(像素预测与意义预测)及Dreamer v3、GameNGen、Genie、JEPA等代表性工作,并讨论了在自动驾驶和机器人领域的应用,指出世界模型是物理AI的关键组件。

LeWorldModel:从像素出发的稳定端到端联合嵌入预测架构

Papers with Code Trending

LeWorldModel 提出了一种稳定的端到端联合嵌入预测架构(JEPA),可直接从像素进行训练,仅需极少超参数,并具有可证明的反坍塌保证。与基础模型相比,它在规划速度上实现了显著提升,同时在机器人操作任务中保持了具有竞争力的性能。