@MatthieuWyart: LLMs通过预测token来学习。世界模型(JEPA、data2vec)通过预测自身的抽象表示来学习。哪种需要更多数据?

X AI KOLs Timeline 论文

摘要

本文证明,对于具有隐藏结构的分层数据,通过预测潜在表示(如JEPA和data2vec等世界模型的做法)进行学习所需的数据量,远少于通过预测token(如LLMs的做法)进行学习,其差距呈指数级。

LLMs通过预测token来学习。世界模型(JEPA、data2vec)通过预测自身的抽象表示来学习。哪种需要更多数据?对于具有隐藏结构的分层数据,我们证明其差距呈指数级。https://t.co/r2uuX0lBCu https://t.co/51canl7smG
查看原文
查看缓存全文

缓存时间: 2026/06/01 13:41

LLMs通过预测标记来学习。世界模型(JEPA、data2vec)通过预测自身的抽象表示来学习。哪种需要更多数据?对于具有隐藏层次结构的数据,我们证明这个差距是指数级的。https://t.co/r2uuX0lBCu https://t.co/51canl7smG


从自身的潜在表示学习,而非从标记学习:样本复杂度理论

来源:https://arxiv.org/html/2605.27734 {forest}{forest}

监督分类 标记级自监督学习(MLM、扩散) 从自身潜在表示学习的自监督学习

图1:学习随机层次模型(RHM)数据的样本复杂度PP取决于训练目标。学习预测目标(TT,方框)与其上下文元组(ZZ,圆圈)之间同义不变性(并构造潜在⋆\star)的样本复杂度按mdtreem^{d_{\rm tree}}缩放,其中dtreed_{\rm tree}表示两者之间的树距离。整体样本复杂度受限于最弱的相关系数,我们针对监督分类和标记级自监督学习进行了高亮显示。基于潜在表示进行监督,正如我们的ILC算法(第3节 (https://arxiv.org/html/2605.27734#S3))、SLC网络(第4节 (https://arxiv.org/html/2605.27734#S4))和data2vec(第5节 (https://arxiv.org/html/2605.27734#S5))所做的那样,实现了更好的样本复杂度∼m3\sim m^{3}。

随机层次模型(RHM)。

RHM [32 (https://arxiv.org/html/2605.27734#bib.bib32)] 是一种基于固定正则树的概率上下文无关文法。该树的深度为LL,分支因子为ss,词汇表为V0,V1,…,VL\mathcal{V}_{0},\mathcal{V}_{1},\ldots,\mathcal{V}_{L},所有词汇表大小均为vv。第0层是可见的,第1,…,L1,\ldots,L层是潜在的。在第l\ell层,有sL−ls^{L-\ell}个变量h1(l),…,hsL−l(l)h^{(\ell)}_{1},\ldots,h^{(\ell)}_{s^{L-\ell}},其中hu(l)∈Vlh^{(\ell)}_{u}\in\mathcal{V}_{\ell}。可见序列为xi=hi(0)x_{i}=h^{(0)}_{i},i=1,…,sLi=1,\ldots,s^{L}。

对于每个层l=0,…,L−1\ell=0,\ldots,L-1,通过从Vls\mathcal{V}_{\ell}^{s}中均匀无放回地选择vmvm个不同的元组,并将它们分成vv个标记组(每组大小为mm),一个组Rl,a\mathcal{R}_{\ell,a}对应一个父符号a∈Vl+1a\in\mathcal{V}_{\ell+1},从而采样得到一个文法实例。规则ν=(ν1,…,νs)∈Rl,a\nu=(\nu_{1},\ldots,\nu_{s})\in\mathcal{R}_{\ell,a}意味着父节点aa可以生成子节点元组ν\nu。第l\ell层的合法文法元组集合为Sl:=⨆a∈Vl+1Rl,a,\mathcal{S}_{\ell}:=\bigsqcup_{a\in\mathcal{V}_{\ell+1}}\mathcal{R}_{\ell,a},因此|Sl|=vm|\mathcal{S}_{\ell}|=vm。我们定义f:=m/vs−1f:=m/v^{s-1}为合法ss-元组的比例,因为在vsv^{s}个可能的元组中只有vmvm个是文法的。由于规则映射是单射的,该文法是无歧义的:每个合法元组有唯一的父节点。我们将其记为parl(ν)=a⟺ν∈Rl,a。\mathrm{par}_{\ell}(\nu)=a\;\Longleftrightarrow\;\nu\in\mathcal{R}_{\ell,a}。两个合法元组ν,ν′∈Sl\nu,\nu^{\prime}\in\mathcal{S}_{\ell}如果具有相同的父节点,则称为同义词。

生成过程是自上而下的。首先h1(L)∼Unif(VL)h^{(L)}_{1}\sim\mathrm{Unif}(\mathcal{V}_{L})。然后,递归地,如果hu(l+1)=ah^{(\ell+1)}_{u}=a,则子元组Tu(l):=(h(u−1)s+1(l),…,hus(l))T^{(\ell)}_{u}:=\big(h^{(\ell)}_{(u-1)s+1},\ldots,h^{(\ell)}_{us}\big)从Rl,a\mathcal{R}_{\ell,a}中均匀采样。

基于相关性的RHM学习。

Cagnetta等人[32 (https://arxiv.org/html/2605.27734#bib.bib32)]的一个核心观察是,学习RHM相当于学习同义词交换下的不变性。识别这些同义词类别的统计信号来自于元组与外部可观测变量之间的相关性。具体而言,设T(l)T^{(\ell)}是一个第l\ell层元组,设ZZ是树中其他位置的一个可观测变量。这种安排在不同的学习目标下如第2节 (https://arxiv.org/html/2605.27734#S2)所示。我们可以考虑连通相关性:

CZ(ν,z):=P[T(l)=ν,Z=z]−P[T(l)=ν]P[Z=z]。C_{Z}(\nu,z):=\mathbb{P}[T^{(\ell)}=\nu,Z=z]-\mathbb{P}[T^{(\ell)}=\nu]\mathbb{P}[Z=z]。如果两个元组ν,ν′\nu,\nu^{\prime}是同义词,那么CZ(ν,⋅)=CZ(ν′,⋅),C_{Z}(\nu,\cdot)=C_{Z}(\nu^{\prime},\cdot),只要ZZ仅通过其父节点依赖于该元组。¹¹确实,在给定元组父节点的条件下,树的其余部分独立于用于生成该元组的具体产生式规则,并且产生式规则的均匀选择使得在每个同义词类内P[T(l)=ν]=P[T(l)=ν′]\mathbb{P}[T^{(\ell)}=\nu]=\mathbb{P}[T^{(\ell)}=\nu^{\prime}]。这种相关信号的强度取决于ZZ的选择及其相对于元组的位置。该信号必须从T(l)T^{(\ell)}的父节点通过隐藏树传播到可观测变量ZZ。沿着这条路径,每个未解析的产生式规则会平均mm个同义的选择,从而削弱信号。用样本复杂度的术语来说,每个额外的未解析规则会带来一个约mm因子的代价,如第2节 (https://arxiv.org/html/2605.27734#S2)所示。

监督分类 [32 (https://arxiv.org/html/2605.27734#bib.bib32)]:可观测变量ZZ是根节点的类别标签。为了恢复将第l\ell层元组映射到第l+1\ell+1层潜在变量的规则,根到元组的相关性必须穿过将元组父节点与根节点分隔开的L−l−1L-\ell-1层。考虑到每个合法元组被观测到的概率约为1/(vm)1/(vm),这给出了形式为Plsup≍vmL−lP_{\ell}^{\mathrm{sup}}\asymp v\,m^{L-\ell}的样本复杂度。因此最困难的一步是第一步,l=0\ell=0,此时必须学习第1层规则。在监督RHM分类任务上训练的深度网络被发现可以达到这一缩放比例,并在其表示中重建潜在层次结构。

标记级自监督学习 [33 (https://arxiv.org/html/2605.27734#bib.bib33),38 (https://arxiv.org/html/2605.27734#bib.bib38),39 (https://arxiv.org/html/2605.27734#bib.bib39)]:ZZ是被掩码或添加噪声的标记。在第一步中,可见标记之间的局部相关性识别出第1层同义词类,样本复杂度为P1tok≍vm3P_{1}^{\mathrm{tok}}\asymp vm^{3}。一旦这些低层潜在变量在内部重建出来,模型就可以将它们用作粗略的上下文变量。为了学习更高层,相关的统计量是标记-潜在相关性:一个可见标记与其上下文的潜在表示相关。然而,由于预测目标仍然是表面标记,信号通过从潜在尺度到叶子节点的后代通道被平均。因此,每个额外的潜在层会使样本复杂度增加一个mm因子。所以,如果l≥1\ell\geq 1表示正在学习的、位于叶子节点之上的潜在层,则

Pltok≍vml+2P_{\ell}^{\mathrm{tok}}\asymp v\,m^{\ell+2} (1)

使用标记级自监督学习目标训练的神经网络被经验证明可以达到这种阶段性缩放:随着数据集大小的增加,较低层的潜在变量首先出现,然后较高层的潜在变量变得可学习。整体样本复杂度受限于重建潜在变量l=L−1\ell=L-1,导致Ptok≍vmL+1P_{\rm tok}\asymp vm^{L+1}。²²注意,由于根节点是均匀采样的,且每个根符号有mm个等概率的规则,分布并不能揭示vmvm个有效顶层元组是如何被分成vv组(每组mm个,每组对应一个根符号)的。因此无监督学习可以恢复h(1),h(2),…,h(L−1)h^{(1)},h^{(2)},\ldots,h^{(L-1)}以及有效顶层元组的支持集,但不能恢复根标签本身。

3 通过聚类恢复RHM层次结构

输入:

PP个样本

x(1),…,x(P)x^{(1)},\ldots,x^{(P)},RHM参数

L,s,vL,s,v,以及一个聚类模块

Clusterv\mathsf{Cluster}_{v}。

输出:估计的非根层次结构

h^(1),…,h^(L−1)\widehat{h}^{(1)},\ldots,\widehat{h}^{(L-1)}。

1

21ex初始化:

h^i(0)=xi\widehat{h}^{(0)}_{i}=x_{i}。

3

41ex对于l=0,1,…,L−2\ell=0,1,\ldots,L-2执行

5形成所有第

l\ell层元组

T^u(l)\widehat{T}^{(\ell)}_{u}。

6通过观测到的元组集合估计合法元组的支持集

S^l\widehat{\mathcal{S}}_{\ell}。

7对于每个

ν∈S^l\nu\in\widehat{\mathcal{S}}_{\ell},计数其出现次数

N(ν)=∑p=1P1{T^l(p)=ν}N(\nu)=\sum_{p=1}^{P}\mathbf{1}\{\widehat{T}^{(p)}_{\ell}=\nu\}并计算其经验对偶上下文向量

φ^l(ν):=1N(ν)∑p=1PeZ^l(p)1{T^l(p)=ν},\widehat{\phi}_{\ell}(\nu):=\frac{1}{N(\nu)}\sum_{p=1}^{P}e_{\widehat{Z}^{(p)}_{\ell}}\mathbf{1}\{\widehat{T}^{(p)}_{\ell}=\nu\},其中

T^l(p)\widehat{T}^{(p)}_{\ell}是样本

pp中一个固定的第

l\ell层元组,

Z^l(p)\widehat{Z}^{(p)}_{\ell}是一个对偶元组(即与

T^l(p)\widehat{T}^{(p)}_{\ell}共享

l+2\ell+2层祖父节点)中的固定第

l\ell层元素。

8对这些上下文向量进行聚类:

S^l,1,…,S^l,v=Clusterv({φ^l(ν):ν∈S^l})。\widehat{\mathcal{S}}_{\ell,1},\ldots,\widehat{\mathcal{S}}_{\ell,v}=\mathsf{Cluster}_{v}\!\left(\{\widehat{\phi}_{\ell}(\nu):\nu\in\widehat{\mathcal{S}}_{\ell}\}\right)。 9通过聚类标识定义下一层潜在标签:

h^u(l+1)=a如果T^u(l)∈S^l,a。\widehat{h}^{(\ell+1)}_{u}=a\qquad\text{如果}\qquad\widehat{T}^{(\ell)}_{u}\in\widehat{\mathcal{S}}_{\ell,a}。{\hbox to0pt{\vbox to0pt{\pgfpicture\makeatletter\hbox{\thinspace\lower 0.0pt\hbox to0.0pt{\pgfsys@beginscope\pgfsys@invoke{ }\definecolor{pgfstrokecolor}{rgb}{0,0,0}\pgfsys@color@rgb@stroke{0}{0}{0}\pgfsys@invoke{ }\pgfsys@color@rgb@fill{0}{0}{0}\pgfsys@invoke{ }\pgfsys@setlinewidth{\the\pgflinewidth}\pgfsys@invoke{ }\nullfont\hbox to0.0pt{\pgfsys@beginscope\pgfsys@invoke{ }{{}}\hbox{\hbox{{\pgfsys@beginscope\pgfsys@invoke{ }{{}{}{{ {}{}}}{ {}{}} {{}{{}}}{{}{}}{}{{}{}} { }{{{{}}\pgfsys@beginscope\pgfsys@invoke{ }\pgfsys@transformcm{1.0}{0.0}{0.0}{1.0}{0.0pt}{0.0pt}\pgfsys@invoke{ }\hbox{{\definecolor{pgfstrokecolor}{rgb}{0,0,0}\pgfsys@color@rgb@stroke{0}{0}{0}\pgfsys@invoke{ }\pgfsys@color@rgb@fill{0}{0}{0}\pgfsys@invoke{ }\hbox{{}} }}\pgfsys@invoke{ }\pgfsys@endscope}}} \pgfsys@invoke{ }\pgfsys@endscope}}} \pgfsys@invoke{ }\pgfsys@endscope\hbox to0.0pt{}{}{}{}\hss}\pgfsys@discardpath\pgfsys@invoke{ }\pgfsys@endscope\hss}}\endpgfpicture}}} 预测器,pp 聚类器,CC

10-0.75em

算法1 迭代潜在聚类(ILC)——参见图2 (https://arxiv.org/html/2605.27734#S3.F2) 的图形表示。

如前所述,标记级目标的局限性不在于它们无法学习潜在变量。相反,它们在仍通过可见标记接收监督时学习它们。下面研究的从自身潜在表示学习的环境移除了这个残留的标记瓶颈:一旦第l\ell层被恢复,条件对象和预测目标都提升到第l\ell层。那么下一阶段再次是一个局部同义词聚类问题,但现在每个尺度具有相同的统计强度。

换句话说,每一层都变得和第一个标记级步骤一样容易。给定方程1 (https://arxiv.org/html/2605.27734#S2.E1),这表明整个非根层次结构应该可以从P≍vm3P\asymp vm^{3}个样本中恢复。这在第2节 (https://arxiv.org/html/2605.27734#S2)的右侧图中进行了说明。

迭代潜在聚类算法(ILC)。

前一节将学习RHM问题框架化为学习元组-目标相关性,并通过共享相同相关性的元组来识别同义词。这里,我们将其转化为一个向量聚类问题。设TT表示一个第l\ell层元组,设ZZ是对偶元组(参见第2节 (https://arxiv.org/html/2605.27734#S2)中的安排——对偶节点就是共享第l+2\ell+2层祖父节点的节点)中的一个第l\ell层目标,设eZ∈Rve_{Z}\in\mathbb{R}^{v}是其独热编码。对于每个合法元组ν∈Sl\nu\in\mathcal{S}_{\ell},定义条件上下文向量

φl(ν):=E[eZ∣T=ν]∈Δv−1。\phi_{\ell}(\nu):=\mathbb{E}[e_{Z}\mid T=\nu]\in\Delta^{v-1}。 x1x_{1}x2x_{2}x3x_{3}x4x_{4}x5x_{5}x6x_{6}x7x_{7}x8x_{8}ppppppppCCCCCCCCh^1(1)\widehat{h}_{1}^{(1)}h^2(1)\widehat{h}_{2}^{(1)}h^3(1)\widehat{h}_{3}^{(1)}h^4(1)\widehat{h}_{4}^{(1)}ppppCCCCh^1(2)\widehat{h}_{1}^{(2)}h^2(2)\widehat{h}_{2}^{(2)}

图2:对于L=3L=3情况下的算法1 (https://arxiv.org/html/2605.27734#algorithm1) 的图形表示。预测器pp实现步骤3-5,聚类器CC构造下一层潜在变量。高亮显示的预测目标与第2节 (https://arxiv.org/html/2605.27734#S2)的右侧图一致。

和之前一样,关键观察是同义词具有相同的上下文向量。如果ν∈Sl,a\nu\in\mathcal{S}_{\ell,a},我们将父节点aa的公共上下文向量记为Φl,a:=φl(ν)\Phi_{\ell,a}:=\phi_{\ell}(\nu)。目标是让vmvm个元组上下文向量聚成vv个父中心。这种将元组分配到聚类的过程显式地构造了下一层潜在变量。

算法1 (https://arxiv.org/html/2605.27734#algorithm1)(迭代潜在聚类,或ILC)实现了这个过程。每一步,算法假设第l\ell层已被解码,根据经验上下文向量对第l\ell层元组进行聚类,从而构造第l+1\ell+1层。这个聚类过程在图2 (https://arxiv.org/html/2605.27734#S3.F2)中进行了图形化说明:预测器pp估计上下文向量(步骤3-5),而聚类器CC将这些向量映射到下一层的潜在标签(步骤6-7)。我们在定理1 (https://arxiv.org/html/2605.27734#Thmtheorem1)中证明了其样本复杂度,并在图3 (https://arxiv.org/html/2605.27734#S3.F3)中进行了数值验证。

理论样本复杂度。

一个RHM文法是平衡的,如果对于每一层l\ell,每个合法元组出现的概率约为1/(vm)1/(vm)。它是分离的,如果每对父上下文向量Φl,a,Φl,b\Phi_{\ell,a},\Phi_{\ell,b}之间的距离≳1/m\gtrsim 1/m。我们请读者参考附录B (https://arxiv.org/html/2605.27734#A2)以了解这些假设的形式化陈述以及它们在v→∞v\to\infty且f∈(0,1)f\in(0,1)固定情况下的合理性。对于一个平衡且分离的RHM文法,且f<1f<1,并假设存在一个稳定的聚类模块(参见附录B (https://arxiv.org/html/2605.27734#A2)),我们有:

定理1(非根层次结构的恢复;非形式化)。

固定一个平衡且分离的RHM文法,以及一个对扰动稳定的聚类算法。那么存在一个常数C>0C>0,仅依赖于这些假设中的常数以及ss,使得以下成立。如果

P≥C[vmlog⁡Lvmδ+vm31−flog⁡Lvmδ],P\geq C\left[vm\log\frac{Lvm}{\del

相似文章

无奖励的表征:JEPA对LLM微调的审计

arXiv cs.LG

本文对联合嵌入预测架构(JEPA)在自然语言到正则表达式任务上的LLM微调进行了审计,测试了二十二个辅助目标。结果表明,隐藏状态表征的改进与解码任务准确率之间仅存在弱耦合,没有辅助目标通过族系校正。