@AlexiGlad: 人工智能的进步源于采用更弱假设的方法，这使其能够更好地扩展。但表示…

X AI KOLs Following 2026/06/16 16:41 论文

representation-learning self-supervised-learning temporal-difference vision causality scaling

摘要

引入了视觉时域差分（TDV），这是一种全新的表示学习范式，仅依赖于因果关系，无需数据增强、掩码或裁剪，并在密集空间任务上达到了与DINO和iBOT等最先进方法相当的性能。

人工智能的进步是由做出更弱假设的方法驱动的，这使其能够更好地扩展。但表示学习一直依赖于强烈的假设，如数据增强、掩码、裁剪等……直到现在！提出视觉时域差分（TDV），这是一种全新的表示学习范式，仅基于一个假设：因果关系。 TL;DR: - 我们提出了TDV，这是第一个无需任何数据增强、掩码、裁剪或基于像素的重建即可学习良好表示的方法。 - TDV在密集空间任务上与DINO和iBOT等SOTA方法相匹配。 - 我们表明，随着数据规模的扩大，更弱的假设效果更好。 Thread:

查看原文

查看缓存全文

缓存时间: 2026/06/16 21:40

人工智能的进步，往往源于那些假设更少、更通用的方法，这让规模化扩展变得更加高效。

然而，表示学习至今仍依赖较强的假设，例如数据增强、掩码、裁剪等……直到现在！

我们提出 Temporal Difference in Vision (TDV)，一种基于唯一假设——因果性——的全新表示学习范式。

太长不看版：

我们提出了 TDV，这是首个无需任何数据增强、掩码、裁剪或像素级重建就能学到高质量表示的方法。
TDV 在密集空间任务上达到了与 DINO、iBOT 等 SOTA 方案相当的水平。
实验表明，随着数据规模的扩大，假设更弱的方法反而表现更好。

完整内容如下：

[1/4] 为什么要抛弃这些假设？

如今的自监督方法严重依赖较强的假设，比如数据增强、掩码、裁剪等……

但从历史来看，当计算量和数据规模增加时，假设最少的方法往往胜出。

我们直接验证了这一点：数据稀缺时，高比例的掩码有帮助；但当数据增多时，轻量掩码（更弱的假设）反而更出色！

[2/4] 那么，我们应该采用哪些假设——既不限制太多，又能让模型学到东西？

我们的答案是：因果性！即“未来可以从过去预测”这一简单思想。

与“增强后视角应该看起来一样”这种视觉专属假设不同，因果性适用于所有时间序列数据。

[3/4] 这启发我们从视频（而非静态图像）中学习表示，因为视频具有时间维度。

基于因果性，我们设计了一个简单的目标：当前帧的表示，加上编码后的运动信息，应该等于下一帧的表示。

类比于强化学习中的时序差分（Temporal Difference），我们将其称为 Temporal Difference in Vision (TDV)。

[4/4] 更多内容请见 Ninad 的推文： https://x.com/ninaddaithankar/status/2066898901106397304?s=20…

衷心感谢所有合作者 @ninaddaithankar @ylecun @hengjinlp

更多信息请访问官网： https://temporal-difference-vision.github.io https://huggingface.co/papers/2606.15956…

另外，这个项目在实现上极其困难——推动一个全新的表示学习范式绝非易事！

因此，我们视 TDV 为未来不依赖强假设的表示学习方法奠定基础。

特别感谢 @ninaddaithankar 能够克服这些挑战。

谢谢 Asher :)

谢谢 Travis :)

谢谢 :)

@AlexiGlad: 人工智能的进步源于采用更弱假设的方法，这使其能够更好地扩展。但表示…

相似文章

@ninaddaithankar: 视觉模型能否在没有数据增强、掩码、裁剪或重建的情况下学会观察？它可以！介绍……

你不需要强假设：基于时间差分的视觉表征学习

让AI更像人类一样观察世界

D4RT：教会 AI 以四维视角观察世界

@alesfav: 人工智能需要比我们多得多的数据。一个想法或许能缩小差距：不要预测原始信号（词元），而是预测你自己的…

提交意见反馈