@AlexiGlad: 人工智能的进步源于采用更弱假设的方法,这使其能够更好地扩展。但表示…

X AI KOLs Following 论文

摘要

引入了视觉时域差分(TDV),这是一种全新的表示学习范式,仅依赖于因果关系,无需数据增强、掩码或裁剪,并在密集空间任务上达到了与DINO和iBOT等最先进方法相当的性能。

人工智能的进步是由做出更弱假设的方法驱动的,这使其能够更好地扩展。 但表示学习一直依赖于强烈的假设,如数据增强、掩码、裁剪等……直到现在! 提出视觉时域差分(TDV),这是一种全新的表示学习范式,仅基于一个假设:因果关系。 TL;DR: - 我们提出了TDV,这是第一个无需任何数据增强、掩码、裁剪或基于像素的重建即可学习良好表示的方法。 - TDV在密集空间任务上与DINO和iBOT等SOTA方法相匹配。 - 我们表明,随着数据规模的扩大,更弱的假设效果更好。 Thread:
查看原文
查看缓存全文

缓存时间: 2026/06/16 21:40

人工智能的进步,往往源于那些假设更少、更通用的方法,这让规模化扩展变得更加高效。

然而,表示学习至今仍依赖较强的假设,例如数据增强、掩码、裁剪等……直到现在!

我们提出 Temporal Difference in Vision (TDV),一种基于唯一假设——因果性——的全新表示学习范式。

太长不看版:

  • 我们提出了 TDV,这是首个无需任何数据增强、掩码、裁剪或像素级重建就能学到高质量表示的方法。
  • TDV 在密集空间任务上达到了与 DINO、iBOT 等 SOTA 方案相当的水平。
  • 实验表明,随着数据规模的扩大,假设更弱的方法反而表现更好。

完整内容如下:

[1/4] 为什么要抛弃这些假设?

如今的自监督方法严重依赖较强的假设,比如数据增强、掩码、裁剪等……

但从历史来看,当计算量和数据规模增加时,假设最少的方法往往胜出。

我们直接验证了这一点:数据稀缺时,高比例的掩码有帮助;但当数据增多时,轻量掩码(更弱的假设)反而更出色!

[2/4] 那么,我们应该采用哪些假设——既不限制太多,又能让模型学到东西?

我们的答案是:因果性!即“未来可以从过去预测”这一简单思想。

与“增强后视角应该看起来一样”这种视觉专属假设不同,因果性适用于所有时间序列数据。

[3/4] 这启发我们从视频(而非静态图像)中学习表示,因为视频具有时间维度。

基于因果性,我们设计了一个简单的目标:当前帧的表示,加上编码后的运动信息,应该等于下一帧的表示。

类比于强化学习中的时序差分(Temporal Difference),我们将其称为 Temporal Difference in Vision (TDV)

[4/4] 更多内容请见 Ninad 的推文: https://x.com/ninaddaithankar/status/2066898901106397304?s=20…

衷心感谢所有合作者 @ninaddaithankar @ylecun @hengjinlp

更多信息请访问官网: https://temporal-difference-vision.github.io https://huggingface.co/papers/2606.15956…

另外,这个项目在实现上极其困难——推动一个全新的表示学习范式绝非易事!

因此,我们视 TDV 为未来不依赖强假设的表示学习方法奠定基础。

特别感谢 @ninaddaithankar 能够克服这些挑战。

谢谢 Asher :)

谢谢 Travis :)

谢谢 :)

相似文章

你不需要强假设:基于时间差分的视觉表征学习

Hugging Face Daily Papers

本文介绍了视觉时间差分法(TDV),这是一种用于视频的自监督学习方法,仅依赖于过去导致未来的因果假设,避免了强归纳偏差,同时在密集空间任务上达到最新技术水平。

让AI更像人类一样观察世界

Google DeepMind Blog

Google DeepMind在《自然》杂志发表了一篇论文,详细介绍了一种将AI视觉表征与人类认知结构对齐的方法,从而提升模型的鲁鲁棒性和可靠性。

D4RT:教会 AI 以四维视角观察世界

Google DeepMind Blog

DeepMind 推出 D4RT,一个统一的 AI 模型,用于动态 4D 场景重建与追踪,效率较此前方法提升高达 300 倍。该模型采用基于查询的 Transformer 架构,为机器人技术与 AR 应用解决复杂的空间和时序任务。