零样本世界模型是发展高效的学习者 [R]
摘要
研究人员引入了零样本世界模型(Zero-shot World Models, ZWM),该方法在仅使用极少数据(单个幼儿的视觉经验)且无需特定任务训练的情况下,即可达到与最先进模型相当的视觉能力。这项工作展示了通往数据效率可与人类发展学习效率匹敌的AI系统的路径。
当今最先进的AI需要比人类幼儿多几个数量级的数据才能达到视觉能力。该论文介绍了零样本世界模型(Zero-shot World Model, ZWM),一种大幅缩小这一差距的方法。即使在仅使用单个幼儿的视觉经验进行训练的情况下,BabyZWM 也能在多种视觉认知任务上与最先进模型匹敌——且无需特定任务训练,即零样本。这项工作为从人类规模数据中实现高效灵活的学习提供了蓝图,推动了通往数据高效AI系统的路径。完整Twitter帖子:[https://x.com/khai\_loong\_aw/status/2044051456672838122?s=20](https://x.com/khai_loong_aw/status/2044051456672838122?s=20) HuggingFace:[https://huggingface.co/papers/2604.10333](https://huggingface.co/papers/2604.10333) GitHub:[https://github.com/awwkl/ZWM](https://github.com/awwkl/ZWM)
相似文章
LeWorldModel:从像素出发的稳定端到端联合嵌入预测架构
LeWorldModel 提出了一种稳定的端到端联合嵌入预测架构(JEPA),可直接从像素进行训练,仅需极少超参数,并具有可证明的反坍塌保证。与基础模型相比,它在规划速度上实现了显著提升,同时在机器人操作任务中保持了具有竞争力的性能。
Self-Distillation Zero:自我修订将二元奖励转化为密集监督
Self-Distillation Zero (SD-Zero) 是一种新颖的训练方法,通过双角色训练将稀疏的二元奖励转化为密集的token级监督,其中模型同时充当生成器和修订者,在数学和代码推理基准上实现了超过10%的性能提升,且样本效率高于强化学习方法。
@heyrobinai: 整个AI行业刚刚被羞辱了——一个仅用单张显卡训练几小时的微型模型正在规划...
Yann LeCun的团队发布了LeWorldModel,一个仅有1500万参数的物理模型,在单张GPU上训练数小时,在规划速度和物理合理性上超越了价值数十亿美元的基础模型,挑战了主流的规模扩展范式。
世界模型或将改变一切(20分钟阅读)
文章探讨了世界模型对AI可能产生的范式变革性影响,重点介绍了Yann LeCun和Fei-Fei Li等人在该技术领域的投入,认为其有望成为当前LLM范式的继任者。
TRN-R1-Zero:仅通过强化学习实现富文本网络推理
TRN-R1-Zero 提出一种后训练框架,让大模型在无需监督微调或思维链数据的情况下,仅凭强化学习即可对富文本网络进行零样本推理。