从离散词元到连续状态：大型语言模型作为世界模型的特例及其超越之路

arXiv cs.CL 2026/06/29 04:00 论文

摘要

本文通过观点论证，指出大型语言模型并非独立于世界模型的新范式，而是世界模型的一种退化特例。文章提出了一条从下一词元预测到潜空间架构（如JEPA）的连续频谱，并探讨了该路径上数据和架构层面的挑战。

arXiv:2606.28127v1 公告类型: 新提交摘要: 人工智能领域将大型语言模型（LLMs）与世界模型的关系视为一种二元对立：LLMs预测词元，世界模型模拟现实。Yann LeCun在2022年提出，要实现通用智能必须放弃自回归词元预测，转而采用潜空间架构。这种框架过于非此即彼。本文将捍卫两个论点。第一，LLMs是世界模型的一种退化特例：其状态空间是所有词元序列的集合，唯一动作是追加一个词元，因此世界模型是LLMs的严格泛化，而非替代品。第二，从NTP到JEPA存在一个自然的连续频谱，其中多词元预测、未来摘要预测和下一潜变量预测等中间步骤已在现有研究中占据一席之地。沿着这一频谱移动，可以逐条放松LLM的约束条件。同时，这也将逐步放弃使LLMs能够大规模训练的两个实际优势：互联网规模的自监督数据，以及为离散词元预测而协同设计的Transformer架构。这两个问题都以开放研究问题的形式被探讨：数据问题（从自监督文本到带标注动作的环境之间存在的悬崖）和架构问题（Transformer是否能泛化到连续状态预测，还是需要新的基础组件）。

查看原文

查看缓存全文

缓存时间: 2026/06/29 05:25

# 作为世界模型特例的大型语言模型及其连续发展路径  
来源: https://arxiv.org/html/2606.28127  
\(观点文章, 草稿, 2026年6月\)

###### 摘要

AI社区将大型语言模型（LLMs）与世界模型的关系视为二元对立：LLMs预测词元；世界模型模拟现实。LeCun（2022 (https://arxiv.org/html/2606.28127#bib.bib2)）认为，要实现通用智能，必须放弃自回归词元预测，转向隐空间架构。这种框架过于二元化。本文将捍卫两个主张。首先，LLMs是世界模型的一种退化特例：状态空间是所有词元序列的集合，唯一动作是追加一个词元，因此世界模型是LLMs的严格泛化，而非替代。其次，从下一词元预测（NTP）到联合嵌入预测架构（JEPA）之间存在一个自然的连续谱系，其中多词元预测、未来摘要预测和下一隐状态预测等中间环节已被现有研究覆盖。沿此谱系移动，逐步放宽LLM的约束条件，同时也逐步放弃使LLMs可大规模训练的两项实际优势：互联网规模的自监督数据和为离散词元预测协同设计的Transformer架构。本文将这两点作为开放研究问题进行考察：*数据问题*（从自监督文本到仪器化动作标记环境的断崖）和*架构问题*（Transformer是否可泛化到连续状态预测，还是需要新的基础构件）。

###### 目录

1. 1 引言 (https://arxiv.org/html/2606.28127#S1)
2. 2 LLMs作为世界模型特例 (https://arxiv.org/html/2606.28127#S2)1. 2.1 世界模型形式化 (https://arxiv.org/html/2606.28127#S2.SS1) 2. 2.2 LLMs的形式化嵌入 (https://arxiv.org/html/2606.28127#S2.SS2) 3. 2.3 世界模型类中LLMs的约束 (https://arxiv.org/html/2606.28127#S2.SS3) 4. 2.4 实证支持：LLMs内部的世界模型 (https://arxiv.org/html/2606.28127#S2.SS4)
3. 3 连续谱系 (https://arxiv.org/html/2606.28127#S3)1. 3.1 逐步骤分析 (https://arxiv.org/html/2606.28127#S3.SS1) 2. 3.2 数据问题 (https://arxiv.org/html/2606.28127#S3.SS2) 3. 3.3 架构问题 (https://arxiv.org/html/2606.28127#S3.SS3) 4. 3.4 莱库恩批判再审视 (https://arxiv.org/html/2606.28127#S3.SS4)
4. 4 讨论与结论 (https://arxiv.org/html/2606.28127#S4)
5. 参考文献 (https://arxiv.org/html/2606.28127#bib)

## 1 引言

*世界模型*追踪环境的状态，并预测其随时间演化的过程。它通过在付诸行动之前模拟行为后果来支持规划（Ha and Schmidhuber, 2018 (https://arxiv.org/html/2606.28127#bib.bib1); LeCun, 2022 (https://arxiv.org/html/2606.28127#bib.bib2)）。而旨在预测序列中下一词元的LLMs，看起来完全是另一回事。LeCun（2022 (https://arxiv.org/html/2606.28127#bib.bib2)）的立场文章将这一直觉形式化。他的联合嵌入预测架构（JEPA）在隐空间中而非词元空间中进行预测，并基于智能体动作进行条件化。他明确对比了“词模型”与“世界模型”，并认为词元预测无法产生规划和推理所需的结构化表征。

这种框架是不精确的。“世界模型”并非某一特定架构的名称，而是一个形式化的类，由状态空间、动作空间和转移函数参数化。LLMs是该类的一个成员，其每个参数都做出了特定且受限的选择。这并不意味着LLMs已经足够好，而是说通往更强大世界模型的路径是对这些选择进行逐步放宽，而非彻底决裂。

这一观点的关键实证支持来自机制可解释性：仅用词元序列训练的LLMs，在其隐藏激活中确实构建了内部的世界模型表征。Li等人 (2024 (https://arxiv.org/html/2606.28127#bib.bib3)) 和Nanda等人 (2023 (https://arxiv.org/html/2606.28127#bib.bib4)) 表明，OthelloGPT在其激活中以>99%的准确率线性编码了整个棋盘状态，尽管它只看到移动词元。会下棋的语言模型也复现了这一现象（Karvonen, 2024 (https://arxiv.org/html/2606.28127#bib.bib5)）。Llama-2编码了地理空间和日历时间的线性表征（Gurnee and Tegmark, 2024 (https://arxiv.org/html/2606.28127#bib.bib6)）。这些结果表明，世界模型存在于激活中而非词元中；词元是接口，而非表征。

连续谱系的观点也得到近年架构的支持：多词元预测（Gloeckle等人, 2024 (https://arxiv.org/html/2606.28127#bib.bib7)）、未来摘要预测（Mahajan等人, 2026 (https://arxiv.org/html/2606.28127#bib.bib10)）和下一隐状态预测（Teoh等人, 2026 (https://arxiv.org/html/2606.28127#bib.bib9)）各自填充了标准NTP与JEPA之间的一个点。Li等人 (2026 (https://arxiv.org/html/2606.28127#bib.bib15)) 实证确认，在足够规模下，LLMs可以作为基于文本的世界模型运行。先前的工作并未提出形式化的包含关系论断，也未将这些架构统一在单一谱系论证之下。

## 2 LLMs作为世界模型特例

### 2.1 世界模型形式化

一个世界模型是一个四元组\((S,A,T,\rho_0)\)：\(S\)是状态空间，\(A\)是动作空间，\(T: S \times A \to \mathcal{P}(S)\)是转移函数，\(\rho_0\)是初始状态分布。规划过程通过对\(T\)进行迭代查询，在付诸实际行动之前先在想象中模拟轨迹\((s_0,a_0,s_1,a_1,\ldots)\)（Ha and Schmidhuber, 2018 (https://arxiv.org/html/2606.28127#bib.bib1)）（图1 (https://arxiv.org/html/2606.28127#S2.F1)）。

状态\(s_t\) 转移\(T(s_t,a_t)\) 状态\(s_{t+1}\) 转移\(T(s_{t+1},a_{t+1})\) 状态\(s_{t+2}\) 动作\(a_t\) 采样 动作\(a_{t+1}\) 采样

图1：世界模型通过迭代应用转移函数来模拟多步轨迹。状态空间和动作空间被有意保留为抽象形式。

### 2.2 LLMs的形式化嵌入

> 论断：每一个自回归LLM都可以形式化地嵌入世界模型形式中，使得世界模型成为LLMs的严格泛化：LLMs ⊂ 世界模型。

令\(V\)为词汇表（一个有限词元集合）。定义：

- • \(S = V^*\)：状态空间是所有有限词元序列的集合（当前上下文）
- • \(A = V\)：唯一的“动作”是选择下一个词元
- • \(T(s,a) = \delta_{s \cdot a}\)：转移是*确定性的*，将词元\(a\)追加到序列\(s\)后得到\(s \cdot a\)
- • LLM提供\(\pi_\theta: V^* \to \mathcal{P}(V)\)：用于选择下一动作的策略

图2 (https://arxiv.org/html/2606.28127#S2.F2) 具体说明了这一映射。

状态\(s_t\) == 词元序列 "The cat sat on the" 动作\(a_t\) == 下一个词元 "mat" 状态\(s_{t+1}\) "The cat sat on the mat" LLM策略\(\pi(\cdot|s_t)\) 确定性追加 图2：LLM作为世界模型：状态==词元序列，动作==下一个词元，转移==确定性追加。一个微妙之处：在标准世界模型中，\(T\)编码外部世界动力学，而\(\pi\)是智能体。在LLM情形中，转移是平凡的（追加），所有内容都在策略中。LLM同时扮演世界模拟器和智能体的角色。这种混淆是LLM特例的一个定义性特征。

### 2.3 世界模型类中LLMs的约束

包含关系是严格的，因为一般的世界模型具有连续状态空间，并以外部动作为条件，这些并非LLMs。图3 (https://arxiv.org/html/2606.28127#S2.F3) 展示了由此产生的子集层次结构。与一般世界模型相比，LLMs施加了五条约束（表1 (https://arxiv.org/html/2606.28127#S2.T1)）：

表1：将LLMs刻画为世界模型特例的五条约束。最后两条约束紧密耦合，解释了为什么LLMs能够如此大规模地扩展：文本上的NTP不需要任何标签、传感器或仪器化环境，只需要互联网文本（约\(10^{13}\)词元）。Transformer架构与这一目标共同进化，使得这对组合异常高效。这些不是缺陷，而是约束，沿谱系移动意味着放宽这些约束。

| 世界模型 | 隐空间预测器 | 多词元预测 | 标准LLMs |
| --- | --- | --- | --- |
| 任意\(S, A, T\) | 连续\(S\)，多步\(T\) | 词元状态，\(k\)步 | 词元状态，1步 |

GPT-4o, Claude, Mistral, Llama, Gemini, DeepSeek-V3, Ling-V2, NextLat, LLM-JEPA, I-JEPA, V-JEPA 2, Genie 3, Cosmos

图3：嵌套集合的包含层次结构。LLMs（最内框图）是最受约束的特例。每个外层框放宽一个约束。这是*子集*关系，而非替代。

### 2.4 实证支持：LLMs内部的世界模型

这一框架预测LLMs应该在其隐藏激活中发展出内部的世界模型表征，事实确实如此。OthelloGPT（Li等人, 2024 (https://arxiv.org/html/2606.28127#bib.bib3); Nanda等人, 2023 (https://arxiv.org/html/2606.28127#bib.bib4)）是最清晰的演示：仅用移动词元训练，其隐藏激活以>99%的准确率线性编码整个棋盘状态。世界模型存在于*激活*中而非词元中；词元是接口（\(A=V\)），而隐世界状态存在于隐藏状态中（图4 (https://arxiv.org/html/2606.28127#S2.F4)）。

输入嵌入层 移动词元→ 词元向量 Transformer层 隐藏激活编码世界状态：棋盘位置·棋子所有权·合法移动（线性解码准确率>99%） 输出头 隐藏状态→ 下一移动分布 残差流 残差流 世界模型在此 词元接口

图4：OthelloGPT是一个标准Transformer，仅用移动词元训练。词元接口（蓝色）处理离散移动符号；Transformer层（绿色）是世界模型所在之处。这直接映射到论断1：词元是动作空间\(A=V\)；隐世界状态存在于隐藏激活中。同样的结构在大规模上也出现了。Gurnee and Tegmark (2024 (https://arxiv.org/html/2606.28127#bib.bib6)) 表明Llama-2编码了地理空间和日历时间的线性表征。Dong等人 (2025 (https://arxiv.org/html/2606.28127#bib.bib11)) 表明提示级别的隐藏状态编码了整个未来响应的全局属性，而不仅仅是下一词元。一致的模式是LLMs发展出比其词元级别目标所需丰富得多的内部世界表征。

## 3 连续谱系

> 论断：存在一个从NTP到JEPA的自然连续谱系，每一步恰好放宽一个LLM约束。沿此谱系移动也会逐步牺牲使LLMs可大规模训练的两项实际优势：互联网规模的自监督数据，以及良好匹配的Transformer架构。

NTP / LLMs: GPT-4o, Claude, Llama 预测: 1个下一词元 数据: 互联网文本 ~\(10^{13}\) 架构: Transformer ✓✓✓  
MTP: DeepSeek-V3, Ling-V2 预测: \(k\)个下一词元 数据: 互联网文本 ~\(10^{13}\) 架构: Transformer ✓✓✓  
未来摘要: Mahajan等人 2025 预测: 压缩的未来 数据: 互联网文本 ~\(10^{12}\) 架构: Transformer ✓✓  
下一隐状态: NextLat, LLM-JEPA 预测: 下一隐状态 数据: 自监督 ~\(10^{11}\) 架构: Transformer ? ✓  
JEPA: I-JEPA, V-JEPA 2, Cosmos 预测: 动作→ 隐状态 数据: 仪器化环境 ~\(10^{9}\) 架构: 开放问题

放宽粒度 压缩输出 隐状态 添加动作

图5：从LLMs到JEPA的谱系。每个节点显示预测目标、训练数据规模以及架构适配度。向右移动放宽一个世界模型约束，但也同时降低了LLM的两项实际优势。

### 3.1 逐步骤分析

图5 (https://arxiv.org/html/2606.28127#S3.F5) 显示了谱系的五个站点；以下段落考察每个过渡。

#### NTP → MTP

这一步放宽了“每步一个词元”的约束。Gloeckle等人 (2024 (https://arxiv.org/html/2606.28127#bib.bib7)) 表明，通过\(k\)个独立头同时预测接下来\(k\)个词元，可以提升推理和代码性能（在MBPP上+15%；已采用于DeepSeek-V3）。Zhong等人 (2026 (https://arxiv.org/html/2606.28127#bib.bib16)) 提供了理论机制：MTP通过表示收缩性促进向内部信念状态的收敛。这一步在数据和架构上代价为零：同样的互联网规模文本，同样的Transformer，仅多出\(k-1\)个输出头。这是一次近乎免费的升级。

#### MTP → 未来摘要

这一步将预测目标与词元空间解耦。Mahajan等人 (2026 (https://arxiv.org/html/2606.28127#bib.bib10)) 训练一个辅助头来预测长期未来的压缩表示（词袋或反向语言模型嵌入），在3B–8B规模下提升了数学和推理能力。训练数据仍为互联网文本，仅需适度的预处理；架构不变。

#### 未来摘要 → 下一隐状态

这一步将预测目标完全移出词元空间。Teoh等人 (2026 (https://arxiv.org/html/2606.28127#bib.bib9)) 提出了NextLat：一个Transformer，训练用于预测其自身的下一隐状态，从而提升规划性能和推理速度（高达3.3倍）。关键的是，这一步仍可在互联网规模文本上训练；监督信号来自模型自身的隐藏状态。然而，架构适配度减弱。预测连续隐向量而非离散词元，需要扩散式输出头或其他适应性调整，且Transformer的归纳偏置不再完美匹配。

#### 下一隐状态 → JEPA

在这一步，两项实际优势同时崩塌。LeCun (https://arxiv.org/html/2606.28127#bib.bib2) 的JEPA预测未来观测的隐状态，并以外部智能体动作作为条件。训练现在需要来自仪器化环境的配对（观测、动作、下一观测）序列，其规模比文本少几个数量级（约\(10^9\)样本 vs 约\(10^{13}\)词元）。正确的架构也是一个开放问题。现有的JEPA模型（I-JEPA, V-JEPA 2）通过将输入重新离散化为图像或视频块来绕过这一问题，实际上向谱系的离散词元端回退。Transformer是否能泛化到真正的连续动作条件动力学仍未解决。

### 3.2 数据问题

谱系上的前三个步骤（NTP、MTP和未来摘要）都使用互联网文本训练，直接使用或仅需适度预处理。甚至下一隐状态预测也可以使用互联网规模语料库：监督信号来自模型自身的隐藏状态，而非外部标签。这是关键观察：转向隐状态预测并不需要放弃互联网规模数据，只需改变预测目标。

真正的数据断崖在最后一步。JEPA需要来自仪器化环境的配对（观测、动作、下一观测）序列：机器人平台、驾驶模拟器、游戏引擎或带有推断智能体动作的视频。此类数据比文本少几个数量级（约\(10^9\)样本 vs 约\(10^{13}\)词元）。V-JEPA 2 (Bardes and others, 2025 (https://arxiv.org/html/2606.28127#bib.bib18)) 通过将每个视频帧转变视为隐式动作来近似这一要求。这是一种权宜之计：真正的动作条件世界模型需要环境

从离散词元到连续状态：大型语言模型作为世界模型的特例及其超越之路

相似文章

@MatthieuWyart: LLMs通过预测token来学习。世界模型（JEPA、data2vec）通过预测自身的抽象表示来学习。哪种需要更多数据？

吐槽：别再说什么LLM只是“下一个词预测器”了。

为何通用人工智能需要世界模型：大型语言模型的不足与世界模型的潜在优势

大语言模型实际工作原理

大型语言模型是如何工作的（26分钟阅读）

提交意见反馈