DVD-JEPA:一个开源、完全可复现的JEPA世界模型 [P]
摘要
DVD-JEPA 是一个开源、极简的 JEPA 世界模型,它通过预测未来嵌入而非像素来从视频中学习表示。它使用弹跳的 DVD 标志来演示位置恢复、梦境生成和异常检测,所有这些都在浏览器中运行。
一篇目前在 paperswithcode.co 上“异常检测”类别中 trending 的论文是 DVD-JEPA。https://i.redd.it/r6fd8n3d4f8h1.gif 以下是简短摘要:大多数从视频中学习世界模型的尝试都试图逐像素预测下一帧,但深陷于本质上不可预测的细节中。JEPA(联合嵌入预测架构,LeCun 2022)做出了不同的选择:预测未来的表示,而非像素,并让编码器丢弃任何它无法预测的内容。DVD-JEPA 是我们能构建的关于这一想法的最小诚实示范。这个“世界”是一个在 16×16 盒子中弹跳的 DVD 标志。训练了上下文编码器、EMA 目标编码器和潜变量预测器——没有标签,也没有解码器——来预测 32 维表示空间中的下一个观测值。然后我们展示了三件事:它学会了这个世界。一个线性探针从冻结的 32 维潜变量中恢复出标志的精确 (y, x) 位置,误差在 0.73 像素以内——尽管从未给过坐标。它可以做梦(一旦添加了解码器)。将可选解码器附加到冻结的潜变量上,并向前滚动预测器:它会生成一段正确未来帧的弹跳视频,包括墙壁反射,大约 20 步后开始出现潜变量漂移。它是有用的。将其用作单步预测监控器,预测误差就变成了异常信号:注入一个瞬移,在正确帧上异常 spikes 至基准线的 88 倍。整个程序在浏览器客户端运行——训练好的 MLP 用大约 40 行 JavaScript 重新实现。这是一个玩笑,但它也是 I-JEPA、V-JEPA 和 V-JEPA 2 背后架构的一个正确且工作的实例。在此处找到论文、HF 模型和项目页面:https://paperswithcode.co/paper/98361
相似文章
GitHub - keon/jepa: 实现联合嵌入预测架构(JEPA)的极简版本
一个 GitHub 仓库,提供 JEPA 系列模型(I-JEPA、V-JEPA、V-JEPA 2、C-JEPA)的极简、独立 PyTorch 重新实现,供教育用途,包含教程和可视化工具。
@AbdelStark: 是时候让世界服下JEPA药丸了!awesome-jepa:一份精心整理的论文、模型、代码、数据集和学习资源列表……
一份精心整理的关于Joint Embedding Predictive Architectures(JEPA)的论文、模型、代码、数据集和学习资源列表,这是Yann LeCun提出的用于世界模型的自监督方法。
@LeRobotHF: VLA-JEPA 刚刚在 LeRobot 中发布。这个模型的特别之处在于它不仅学习从观测中采取什么行动……
VLA-JEPA,一种集成了 JEPA 世界模型以学习动作相关动态的新模型,已在 LeRobot 中发布。它支持使用人类视频进行预训练,仅需少量微调即可获得强大性能,并在 NVIDIA DGX Spark 上实时运行。
DLLM-JEPA:面向掩码扩散语言模型的联合嵌入预测架构
介绍了DLLM-JEPA,这是一种针对掩码扩散语言模型的JEPA公式,通过扩散噪声调度从单个输入构建两个视图,相比LLM-JEPA减少了33%的训练FLOPs,并在GSM8K等任务上提升了微调性能。
JEPA模型背后已有90年历史的想法:典型相关分析
这篇博文解释了JEPA(联合嵌入预测架构)模型与典型相关分析(CCA)之间的联系,典型相关分析是一种源于1936年的统计方法,文章认为CCA是JEPA的概念前身,并指出在嵌入空间中最大化相关性的思想可追溯到Hotelling。