DVD-JEPA：一个开源、完全可复现的JEPA世界模型 [P]

Reddit r/MachineLearning 2026/06/20 10:52 论文

dvd-jepa jepa world-model open-source anomaly-detection video-prediction representation-learning

摘要

DVD-JEPA 是一个开源、极简的 JEPA 世界模型，它通过预测未来嵌入而非像素来从视频中学习表示。它使用弹跳的 DVD 标志来演示位置恢复、梦境生成和异常检测，所有这些都在浏览器中运行。

一篇目前在 paperswithcode.co 上“异常检测”类别中 trending 的论文是 DVD-JEPA。https://i.redd.it/r6fd8n3d4f8h1.gif 以下是简短摘要：大多数从视频中学习世界模型的尝试都试图逐像素预测下一帧，但深陷于本质上不可预测的细节中。JEPA（联合嵌入预测架构，LeCun 2022）做出了不同的选择：预测未来的表示，而非像素，并让编码器丢弃任何它无法预测的内容。DVD-JEPA 是我们能构建的关于这一想法的最小诚实示范。这个“世界”是一个在 16×16 盒子中弹跳的 DVD 标志。训练了上下文编码器、EMA 目标编码器和潜变量预测器——没有标签，也没有解码器——来预测 32 维表示空间中的下一个观测值。然后我们展示了三件事：它学会了这个世界。一个线性探针从冻结的 32 维潜变量中恢复出标志的精确 (y, x) 位置，误差在 0.73 像素以内——尽管从未给过坐标。它可以做梦（一旦添加了解码器）。将可选解码器附加到冻结的潜变量上，并向前滚动预测器：它会生成一段正确未来帧的弹跳视频，包括墙壁反射，大约 20 步后开始出现潜变量漂移。它是有用的。将其用作单步预测监控器，预测误差就变成了异常信号：注入一个瞬移，在正确帧上异常 spikes 至基准线的 88 倍。整个程序在浏览器客户端运行——训练好的 MLP 用大约 40 行 JavaScript 重新实现。这是一个玩笑，但它也是 I-JEPA、V-JEPA 和 V-JEPA 2 背后架构的一个正确且工作的实例。在此处找到论文、HF 模型和项目页面：https://paperswithcode.co/paper/98361

查看原文

DVD-JEPA：一个开源、完全可复现的JEPA世界模型 [P]

相似文章

GitHub - keon/jepa: 实现联合嵌入预测架构（JEPA）的极简版本

@AbdelStark: 是时候让世界服下JEPA药丸了！awesome-jepa：一份精心整理的论文、模型、代码、数据集和学习资源列表……

@LeRobotHF: VLA-JEPA 刚刚在 LeRobot 中发布。这个模型的特别之处在于它不仅学习从观测中采取什么行动……

DLLM-JEPA：面向掩码扩散语言模型的联合嵌入预测架构

JEPA模型背后已有90年历史的想法：典型相关分析

提交意见反馈