@AlexiGlad: 人工智能的进步源于采用更弱假设的方法,这使其能够更好地扩展。但表示…
摘要
引入了视觉时域差分(TDV),这是一种全新的表示学习范式,仅依赖于因果关系,无需数据增强、掩码或裁剪,并在密集空间任务上达到了与DINO和iBOT等最先进方法相当的性能。
查看缓存全文
缓存时间: 2026/06/16 21:40
人工智能的进步,往往源于那些假设更少、更通用的方法,这让规模化扩展变得更加高效。
然而,表示学习至今仍依赖较强的假设,例如数据增强、掩码、裁剪等……直到现在!
我们提出 Temporal Difference in Vision (TDV),一种基于唯一假设——因果性——的全新表示学习范式。
太长不看版:
- 我们提出了 TDV,这是首个无需任何数据增强、掩码、裁剪或像素级重建就能学到高质量表示的方法。
- TDV 在密集空间任务上达到了与 DINO、iBOT 等 SOTA 方案相当的水平。
- 实验表明,随着数据规模的扩大,假设更弱的方法反而表现更好。
完整内容如下:
[1/4] 为什么要抛弃这些假设?
如今的自监督方法严重依赖较强的假设,比如数据增强、掩码、裁剪等……
但从历史来看,当计算量和数据规模增加时,假设最少的方法往往胜出。
我们直接验证了这一点:数据稀缺时,高比例的掩码有帮助;但当数据增多时,轻量掩码(更弱的假设)反而更出色!
[2/4] 那么,我们应该采用哪些假设——既不限制太多,又能让模型学到东西?
我们的答案是:因果性!即“未来可以从过去预测”这一简单思想。
与“增强后视角应该看起来一样”这种视觉专属假设不同,因果性适用于所有时间序列数据。
[3/4] 这启发我们从视频(而非静态图像)中学习表示,因为视频具有时间维度。
基于因果性,我们设计了一个简单的目标:当前帧的表示,加上编码后的运动信息,应该等于下一帧的表示。
类比于强化学习中的时序差分(Temporal Difference),我们将其称为 Temporal Difference in Vision (TDV)。
[4/4] 更多内容请见 Ninad 的推文: https://x.com/ninaddaithankar/status/2066898901106397304?s=20…
衷心感谢所有合作者 @ninaddaithankar @ylecun @hengjinlp
更多信息请访问官网: https://temporal-difference-vision.github.io https://huggingface.co/papers/2606.15956…
另外,这个项目在实现上极其困难——推动一个全新的表示学习范式绝非易事!
因此,我们视 TDV 为未来不依赖强假设的表示学习方法奠定基础。
特别感谢 @ninaddaithankar 能够克服这些挑战。
谢谢 Asher :)
谢谢 Travis :)
谢谢 :)
相似文章
@ninaddaithankar: 视觉模型能否在没有数据增强、掩码、裁剪或重建的情况下学会观察?它可以!介绍……
介绍了时间差视觉表征学习范式(Temporal Difference in Vision, TDV),这是一种新颖的视觉表征学习范式,无需数据增强、掩码、裁剪或重建即可学习有用的表征,并在密集空间任务上达到与最先进方法相当的性能。
你不需要强假设:基于时间差分的视觉表征学习
本文介绍了视觉时间差分法(TDV),这是一种用于视频的自监督学习方法,仅依赖于过去导致未来的因果假设,避免了强归纳偏差,同时在密集空间任务上达到最新技术水平。
让AI更像人类一样观察世界
Google DeepMind在《自然》杂志发表了一篇论文,详细介绍了一种将AI视觉表征与人类认知结构对齐的方法,从而提升模型的鲁鲁棒性和可靠性。
D4RT:教会 AI 以四维视角观察世界
DeepMind 推出 D4RT,一个统一的 AI 模型,用于动态 4D 场景重建与追踪,效率较此前方法提升高达 300 倍。该模型采用基于查询的 Transformer 架构,为机器人技术与 AR 应用解决复杂的空间和时序任务。
@alesfav: 人工智能需要比我们多得多的数据。一个想法或许能缩小差距:不要预测原始信号(词元),而是预测你自己的…
本线程展示了一个理论结果,表明预测抽象的潜在表征(如JEPA和data2vec)而非原始词元,可以指数级地缩小人工智能与人类学习之间的数据差距。