@AlphaSignalAI: https://x.com/AlphaSignalAI/status/2069424192274252094

X AI KOLs Timeline 论文

摘要

微软的NextLat引入了一种训练目标,它奖励信念状态表示,而不是仅仅依赖于下一个词预测,从而推动模型向紧凑的世界模型发展,以实现更好的泛化。

https://t.co/WqF8HzdlQm
查看原文
查看缓存全文

缓存时间: 2026/06/23 16:12

下一个词预测并不教会模型理解。它教会模型预测。

微软的NextLat增加了一个训练目标,奖励信念状态表示,而不是仅仅依赖下一个词预测。

用8分钟,了解为什么下一个词预测并不强烈支持世界模型,以及微软的NextLat如何推动模型学习信念状态。

一个能准确预测下一个词的模型,与一个足够理解世界以便泛化的模型,两者之间存在区别。

前者可以通过记忆模式实现。后者则需要构建一个关于事物运作方式的紧凑内部模型,一个捕获规则而非表面规律性的模型。

标准的下一个词预测可以产生后者,但它并没有明确地偏爱这种解决方案而非其他预测方案。

一个模型可以通过复杂的模式匹配实现强大的词预测准确性,而无需构建一个紧凑的世界模型。

NextLat引入了一个训练信号,直接奖励具有信念状态结构的表示。相同的架构。相同的推理。但内部表示有本质不同。

Jayden Teoh@jayden_teoh_·6月16日下一个词预测是短视的。如果Transformer学习预测自己的下一个隐状态会怎样?

我们提出了下一隐状态预测 (NextLat):一种自监督学习方法,教Transformer形成紧凑的世界模型用于推理显示更多433071.8K263K

下一个词预测中缺失的激励

当Transformer处理一个序列时,它不像循环网络那样将历史压缩成固定大小的状态。它通过键值缓存将整个历史保存在内存中,并在每一步关注相关的过去词元。

这就是Transformer强大的原因。在全上下文上进行即需检索比固定的循环状态更灵活。

但灵活性是有代价的。因为模型总是可以查找它需要的内容,所以没有压缩的压力。模型永远不需要问:到目前为止我所看到的内容,其最小的表示是什么,能够让我预测接下来发生什么?

许多学习理论将强大的泛化与紧凑的表示联系起来,这些表示捕获底层结构,而不是记忆观察结果。

单纯的下一个词预测并不强烈偏好紧凑的世界模型而非表面的预测捷径。两者都能产生准确的下一个词预测。

这篇论文以一个尖锐的类比开场。

托勒密的地心模型准确地预测了地球上的观测结果,但其结构复杂。

它被取代不是因为它在分布内准确性更低,而是因为哥白尼的日心模型更简单,并且能从地球视角之外进行泛化。

基于下一个词预测训练的Transformer没有动力去寻找更简单的解释。

什么是信念状态以及为什么它们很重要

信念状态是历史的一个充分统计量:一个紧凑的表示,恰好包含预测未来所需的信息,没有多余内容。如果你有信念状态,额外的历史不会增加预测价值。

循环网络自然会产生类似信念状态的东西,因为它们的固定大小隐藏状态必须编码有关过去的一切有用信息。瓶颈迫使压缩。

Transformer没有这样的瓶颈。它们的内部表示可以任意复杂,因为完整的历史始终可用。没有任何机制迫使它们走向捕获世界结构的紧凑表示。

NextLat恢复了这种压力,而没有增加循环的成本。

NextLat做了什么

下一个词预测监督输出。NextLat监督内部轨迹。

其他方法约束模型每一步产生的内容。NextLat约束模型内部表示在步骤之间如何演化。这种区别正是驱动信念状态收敛的原因。

这个修改很优雅。在训练期间,NextLat在标准的下一个词预测之外增加了一个辅助目标:

训练一个轻量级的隐状态动力学模型,该模型根据当前隐状态和下一个词来预测Transformer的下一个隐状态。

仅此而已。推理时没有任何变化。隐状态动力学模型仅在训练期间用于塑造表示。

Next-Latent预测如何工作

Next-Latent预测如何工作

在标准交叉熵损失之上添加了两个组件。

下一个隐状态预测损失:一个小型MLP学习从当前隐状态加上下一个词来预测Transformer的下一个隐状态。使用Smooth L1损失,并在多步展开的范围内进行监督。

KL对齐损失:强制预测的隐状态与真实的隐状态在词预测空间上一致。这类似于知识蒸馏,引导隐状态动力学模型朝向语义一致的表示。

组合目标:

L_NextLat = L_下一个词 + λ1 · L_下一个隐状态 + λ2 · L_KL

这背后的形式化保证是定理3.2:

该定理陈述了两个条件。

首先,输出头必须能从隐状态中恢复出真实的下一个词分布。

其次,隐状态动力学模型必须能恢复出隐状态的真实转移规律。

当两者同时成立时,隐状态必须是一个信念状态。即,用于预测未来的历史的充分统计量。

直观地说,如果第t步的隐状态,结合下一个词,必须预测第t+1步的隐状态,而那个状态又必须预测之后的词,如此递归下去,那么隐状态必然包含历史的充分统计量。

递归链迫使压缩。

在有限数据上训练的实际Transformer不会达到精确的理论最优。但该目标创造了一个有意义的梯度朝向它。

这在实践中是什么样子的

这篇论文在四个领域评估了NextLat:世界建模、推理、规划和语言建模。

曼哈顿出租车行程实验是最直观的。

一个Transformer在曼哈顿出租车行程序列上进行训练,并要求生成有效的轨迹。与真实街道网络一致的边用黑色标出。无效的边用红色标出。

标准GPT:大量红色。模型自信地生成无效路线。

NextLat:红色明显减少。模型生成的路线更符合实际街道结构。

这是更强的世界模型获取的证据。模型不是在检索记忆中的路线。它从一个更好地反映网格实际运作方式的内部表示中生成路线。

NextLat还产生了更低秩的隐层表示和更好的序列压缩,这表明目标改变了表示的内部结构,而不仅仅是提高了任务性能。

模型在以一种不同的方式组织其隐空间,而不仅仅是更准确地预测。

它在世界建模、有效轨迹生成、序列压缩和绕路鲁棒性方面,均优于标准的下一个词预测和所有基线。

它还优于信念状态Transformer(BST),后者是解决同一问题的先前方法,同时效率大幅提升。BST需要一个单独的Transformer。NextLat只需要一个小的MLP。

在推理和规划基准上,NextLat显示出一致的改进。

在语言建模方面,收益较小,这合情合理。自然语言具有更多可被利用的表面规律,并且对紧凑世界建模的依赖程度较低。

免费的推理加速

NextLat的隐状态动力学模型解锁了标准Transformer无法做到的事情:可变长度的自推测解码。

使用多词预测的标准推测解码每一步草案固定数量的词元,受限于训练范围。

NextLat的隐状态动力学模型在隐空间中递归组合,因此可以草案灵活数量的词元,无论训练范围如何。

结果:在语言建模基准上推理速度提升高达3.3倍。无需单独的草案模型。无需架构更改。在预训练期间训练的隐状态动力学模型在推理时处理草案生成。

更深层的含义

下一个词预测只关心最终预测是否正确。许多不同的内部表示可以产生相同的输出分布。

NextLat约束了表示本身。

为了在多步内一致地预测未来的隐状态,模型必须以一种捕获生成序列的过程的底层动力学的方式来组织其隐空间。

标准的下一个词预测与拟合训练分布高度一致。但与足够理解世界以便泛化的一致性较弱。

一个模型可以通过复杂的模式匹配实现强大的基准性能,而无需一个紧凑的内部世界模型。

NextLat直接针对这一差距。

这对你如何看待LLM意味着什么

一个能准确预测词元的大型语言模型,与一个构建了紧凑世界模型的大型语言模型,不是一回事。

当前的Transformer可以在没有显式学习信念状态的情况下实现强大的预测性能。下一个词预测允许多种解决方案,有些结构优雅,有些由表面捷径构成。它并不强烈偏爱某一种。

NextLat增加了一个训练信号,奖励表现得像信念状态的表示。它是否会成为未来基础模型训练的标准组成部分,仍然是一个开放问题。

这篇论文所确立的是,在训练目标和世界模型形成之间,建立了目前最清晰的理论联系之一,并有跨领域的实验证据支持这一联系成立。

相似文章

下一代潜在预测变换器 [R]

Reddit r/MachineLearning

微软研究院提出Next-Latent Prediction (NextLat)方法,一种自监督学习方法,训练变换器预测自身下一个潜在状态,从而形成用于推理和规划的紧凑世界模型,并通过自推测解码实现高达3.3倍的推理加速。

Next-Latent Prediction Transformers 学习紧凑世界模型

Papers with Code Trending

介绍了 Next-Latent Prediction (NextLat),这是一种自监督目标,训练 Transformer 预测其下一个潜在状态,鼓励形成紧凑的内部世界模型,并提高跨序列建模任务的泛化能力。