JEPA模型背后已有90年历史的想法:典型相关分析

Hacker News Top 论文

摘要

这篇博文解释了JEPA(联合嵌入预测架构)模型与典型相关分析(CCA)之间的联系,典型相关分析是一种源于1936年的统计方法,文章认为CCA是JEPA的概念前身,并指出在嵌入空间中最大化相关性的思想可追溯到Hotelling。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/06/16 03:02

# JEPA模型背后90年的思想:典型相关分析(CCA) – Shon Czinner的博客 来源:https://shonczinner.github.io/posts/embedding-prediction/ ## 引言 > 相关和回归的概念不仅可以应用于普通的一维变量,还可以应用于二维或更多维度的变量。 这是统计学家和经济学家哈罗德·霍特林(Harold Hotelling)的论文《两组变量之间的关系》(Hotelling 1936 (https://shonczinner.github.io/posts/embedding-prediction/#ref-hotelling1936))的第一句话。这篇论文引入了典型相关分析(CCA)。用现代术语来说,“CCA用于在两个大型矩阵中寻找共同信号”(Bykhovskaya and Gorin 2025 (https://shonczinner.github.io/posts/embedding-prediction/#ref-bykhovskaya2025))。 在JEPA中,目标相同,只是第二个数据矩阵恰好是第一个数据集中同一数据的另一种视图(例如通过数据增强或空间、时间邻近性)。最近一篇承认这种联系的论文指出:“基于JEPA的模型隐式地执行了典型相关分析的非线性泛化”。(Huang 2026 (https://shonczinner.github.io/posts/embedding-prediction/#ref-huang2026)) CCA与JEPA的联系与Schmidhuber关于谁发明了JEPA(https://people.idsia.ch/~juergen/who-invented-jepa.html)的争论有关,该争论针对Yann LeCun。个人而言,我认为霍特林应因在嵌入空间中最大化相关性的想法而获得赞誉。 当然,CCA模型与JEPA有许多不同之处。 首先,CCA不强制使用共享编码器。但最大的区别是CCA是线性的。CCA的非线性神经变体已被研究,其中“深度CCA”一词最早由(Andrew et al. 2013 (https://shonczinner.github.io/posts/embedding-prediction/#ref-andrew2013))使用。 将JEPA模型与其CCA根源联系起来确实很有用。另一篇深度CCA论文(Benton et al. 2017 (https://shonczinner.github.io/posts/embedding-prediction/#ref-benton2017))基于1961年提出的CCA泛化(Horst 1961 (https://shonczinner.github.io/posts/embedding-prediction/#ref-horst1961)),将两组变量的假设放宽到任意数量。可以想象,JEPA也可以扩展到处理两个以上的视图。 ## CCA与JEPA概述 假设有零均值矩阵\\\(X=\(x\_1,\.\.\.,x\_n\)^T\\in \\mathbb R^\{n\\times d\_x\}\\\)和\\\(Y=\(y\_1,\.\.\.,y\_n\)^T\\in\\mathbb R^\{n\\times d\_y\}\\\)。 设\\\(k\\leq \\min\(d\_x,d\_y, n\)\\\)且\\\(A\\in \\mathbb R^\{d\_x\\times k\}\\\)和\\\(B\\in \\mathbb R^\{d\_y\\times k\}\\\),使得\\\(XA=z\_x\\in\\mathbb R^\{n \\times k\}\\\)和\\\(YB=z\_y\\in\\mathbb R^\{n \\times k\}\\\)。 CCA求解以下最大化问题: \\\[\\max\_\{A,B\} \\text\{tr\}\\left\(\\frac\{1\}\{n\}z\_x^Tz\_y\\right\) \\\]\\\[\\text\{s\.t\}\\\]\\\[\\frac\{1\}\{n\}z\_x^Tz\_x=\\frac\{1\}\{n\}z\_y^Tz\_y=I\\\] 这最大化交叉相关矩阵的迹,同时将嵌入向量约束为单位方差和零协方差。 与PCA中最大化方差和最小化预测误差之间的等价性类似,交叉相关矩阵的迹与嵌入预测误差之间存在关系: \\\[\\frac\{1\}\{n\}\\sum\_\{i=1\}^n \|\|z\_x^\{\(i\)\}\-z\_y^\{\(i\)\}\|\|^2=\\frac\{1\}\{n\}\|\|z\_x\-z\_y\|\|\_F^2= \\frac\{1\}\{n\}\\text\{tr\}\(z\_x^Tz\_x\) \+ \\frac\{1\}\{n\}\\text\{tr\}\(z\_y^Tz\_y\) \- \\frac\{2\}\{n\}\\text\{tr\}\(z\_x^Tz\_y\)\\\]由于白化约束,\\\[=2k\- \\frac\{2\}\{n\}\\text\{tr\}\(z\_x^Tz\_y\)\\\] 因此,在白化约束下最大化交叉相关矩阵的迹等价于最小化嵌入表示的均方误差。所以我们可以将CCA写为: \\\[\\min\_\{A,B\} \\frac\{1\}\{n\}\\sum\_\{i=1\}^n \|\|z\_x^\{\(i\)\}\-z\_y^\{\(i\)\}\|\|^2\\\]\\\[\\text\{s\.t\}\\\]\\\[\\frac\{1\}\{n\}z\_x^Tz\_x=\\frac\{1\}\{n\}z\_y^Tz\_y=I\\\] ## JEPA 采用之前的符号,由于联合嵌入,JEPA被约束为\\\(d\_x=d\_y=d\\\)。在JEPA中,我们有编码器\\\(f\_\\theta:\\mathbb R^\{d\}\\rightarrow \\mathbb R^k\\\)和预测器\\\(g\_\\varphi:\\mathbb R^\{k\}\\rightarrow \\mathbb R^k\\\)。 设\\\(z\_x^\{\(i\)\}=g\_\\varphi\(f\_\\theta\(x\_i\)\)\\\),\\\(z\_y^\{\(i\)\}=f\_\\theta\(y\_i\)\\\)。 然后我们求解: \\\[\\min\_\{\\theta,\\varphi\}\\frac\{1\}\{n\} \\sum\_\{i=1\}^n \|\|z\_x^\{\(i\)\}\-z\_y^\{\(i\)\}\|\|^2\\\] 注意目标函数的相似性,但缺少白化约束。缺少白化约束会导致表征和维度塌缩。例如,上述问题的一个平凡解是\\\(z\_x^\{\(i\)\}=z\_y^\{\(i\)\}=c\\\)。 正如我之前博客文章(https://shonczinner.github.io/posts/sigreg-sketched-isotropic-gaussian-regularization/)中所讨论的,SIGReg(Balestriero and LeCun 2025 (https://shonczinner.github.io/posts/embedding-prediction/#ref-balestriero2025))解决了这个问题。它是做什么的?它鼓励嵌入\\\(z\_x\\\)和\\\(z\_y\\\)具有各向同性(即单位方差、不相关)的高斯分布。因此它鼓励: \\\[\\frac\{1\}\{n\}z\_x^Tz\_x=\\frac\{1\}\{n\}z\_y^Tz\_y=I\\\] ## 结论 正如我在引言中提到的,Schmidhuber就谁发明了JEPA(https://people.idsia.ch/~juergen/who-invented-jepa.html)进行了辩论,并这样评价LeCun: > LeCun博士大力推广的联合嵌入预测架构(JEPA)是他新公司的核心。然而,核心思想并非LeCun原创。实际上,JEPA与我们1992年的可预测性最大化系统本质上相同。 Schmidhuber引用了Yann LeCun的回应: > JEPA只是一个通用概念的名称。问题一直是,如何让它工作(特别是如何防止它塌缩),以及如何在大规模非玩具问题上取得SOTA结果。这才是难点。想法不值钱。让它们生效才是社区认可你的地方。 我同意LeCun吗?既是也不是。 是的,因为当然你会因让事物生效而获得认可,而且想法确实可以说“不值钱”。 不是,因为引用线索对进步很重要。如果遗漏了重要引用,无论有意还是无意,正确的做法就是补上它们。大家都只会因此变得更好。JEPA模型与CCA的联系具有启发性。 我的观点是,JEPA/可预测性最大化模型是在CCA之上叠加的架构增强。非线性是一种增强。 最终,这些模型都具有CCA引入的相同目标函数:找到使多维数据集之间具有最大相关性的变换。 ## 参考文献 Andrew, Galen, Raman Arora, Jeff Bilmes, 和 Karen Livescu. 2013.《深度典型相关分析》.*International Conference on Machine Learning*, 1247–55. https://proceedings.mlr.press/v28/andrew13.html. Balestriero, Randall, 和 Yann LeCun. 2025.*LeJEPA: Provable and Scalable Self-Supervised Learning Without the Heuristics*. https://arxiv.org/abs/2511.08544. Benton, Adrian, Huda Khayrallah, Biman Gujral, Dee Ann Reisinger, Sheng Zhang, 和 Raman Arora. 2017.*Deep Generalized Canonical Correlation Analysis*. https://arxiv.org/abs/1702.02519. Bykhovskaya, Anna, 和 Vadim Gorin. 2025.*Canonical Correlation Analysis: Review*. https://arxiv.org/abs/2411.15625. Horst, Paul. 1961.*Generalized Canonical Correlations and Their Application to Experimental Data*. Journal of clinical psychology. Hotelling, Harold. 1936.《两组变量之间的关系》.*Biometrika*28 (3/4): 321–77. http://www.jstor.org/stable/2333955. Huang, Yongchao. 2026.*VJEPA: Variational Joint Embedding Predictive Architectures as Probabilistic World Models*. https://arxiv.org/abs/2601.14354.

相似文章

编码智能体的未来是JEPA吗?[D]

Reddit r/MachineLearning

作者讨论了将Yann LeCun的JEPA(联合嵌入预测架构)应用于编码智能体,提出不应将代码视为文本,而应让智能体学习紧凑的状态表示并预测未来状态,可能比当前基于LLM的方法实现数量级的效率提升。

无奖励的表征:JEPA对LLM微调的审计

arXiv cs.LG

本文对联合嵌入预测架构(JEPA)在自然语言到正则表达式任务上的LLM微调进行了审计,测试了二十二个辅助目标。结果表明,隐藏状态表征的改进与解码任务准确率之间仅存在弱耦合,没有辅助目标通过族系校正。