DVD-JEPA:一个开源、完全可复现的JEPA世界模型 [P]

Reddit r/MachineLearning 论文

摘要

DVD-JEPA 是一个开源、极简的 JEPA 世界模型,它通过预测未来嵌入而非像素来从视频中学习表示。它使用弹跳的 DVD 标志来演示位置恢复、梦境生成和异常检测,所有这些都在浏览器中运行。

一篇目前在 paperswithcode.co 上“异常检测”类别中 trending 的论文是 DVD-JEPA。https://i.redd.it/r6fd8n3d4f8h1.gif 以下是简短摘要:大多数从视频中学习世界模型的尝试都试图逐像素预测下一帧,但深陷于本质上不可预测的细节中。JEPA(联合嵌入预测架构,LeCun 2022)做出了不同的选择:预测未来的表示,而非像素,并让编码器丢弃任何它无法预测的内容。DVD-JEPA 是我们能构建的关于这一想法的最小诚实示范。这个“世界”是一个在 16×16 盒子中弹跳的 DVD 标志。训练了上下文编码器、EMA 目标编码器和潜变量预测器——没有标签,也没有解码器——来预测 32 维表示空间中的下一个观测值。然后我们展示了三件事:它学会了这个世界。一个线性探针从冻结的 32 维潜变量中恢复出标志的精确 (y, x) 位置,误差在 0.73 像素以内——尽管从未给过坐标。它可以做梦(一旦添加了解码器)。将可选解码器附加到冻结的潜变量上,并向前滚动预测器:它会生成一段正确未来帧的弹跳视频,包括墙壁反射,大约 20 步后开始出现潜变量漂移。它是有用的。将其用作单步预测监控器,预测误差就变成了异常信号:注入一个瞬移,在正确帧上异常 spikes 至基准线的 88 倍。整个程序在浏览器客户端运行——训练好的 MLP 用大约 40 行 JavaScript 重新实现。这是一个玩笑,但它也是 I-JEPA、V-JEPA 和 V-JEPA 2 背后架构的一个正确且工作的实例。在此处找到论文、HF 模型和项目页面:https://paperswithcode.co/paper/98361
查看原文

相似文章

JEPA模型背后已有90年历史的想法:典型相关分析

Hacker News Top

这篇博文解释了JEPA(联合嵌入预测架构)模型与典型相关分析(CCA)之间的联系,典型相关分析是一种源于1936年的统计方法,文章认为CCA是JEPA的概念前身,并指出在嵌入空间中最大化相关性的思想可追溯到Hotelling。