Next-Latent Prediction Transformers 学习紧凑世界模型

Papers with Code Trending 2025/11/08 10:41 论文

摘要

介绍了 Next-Latent Prediction (NextLat)，这是一种自监督目标，训练 Transformer 预测其下一个潜在状态，鼓励形成紧凑的内部世界模型，并提高跨序列建模任务的泛化能力。

Transformer 用随序列长度增长的记忆和能够对过去 token 进行即席查找的自注意力机制取代了循环。因此，它们缺乏将历史压缩为具有一致转换规则的紧凑潜在状态的内在激励。这通常会导致学习到的解决方案泛化能力差。我们引入了 Next-Latent Prediction (NextLat)，它将标准的下一 token 训练扩展为在潜在空间中的自监督预测。具体来说，NextLat 训练 Transformer 学习潜在表示，这些表示能够根据下一个输出 token 预测其下一个潜在状态。从理论上讲，我们证明这些潜在状态可证明地收敛到信念状态，即预测未来所需的历史压缩信息。这个简单的辅助目标也为 Transformer 注入了循环归纳偏置，同时保持其架构、并行训练和推理不变。NextLat 有效地鼓励 Transformer 利用其自身的信念状态和转换动态形成紧凑的内部世界模型——这是标准下一 token 预测 Transformer 所缺失的关键属性。在针对核心序列建模能力（世界建模、推理、规划和语言建模）的基准测试中，NextLat 在下游准确性、表示压缩和前瞻规划方面相比标准下一 token 训练表现出了显著提升。NextLat 为塑造 Transformer 表示以实现更强泛化提供了一种简单高效的范式。

查看原文

查看缓存全文

缓存时间: 2026/06/17 23:38

论文页面 - Next-Latent Prediction Transformers Learn Compact World Models

来源：https://huggingface.co/papers/2511.05963

摘要

Next-Latent Prediction 通过引入自监督的潜在状态预测，增强了 Transformer 架构，在序列建模任务中实现了更有效的历史压缩和更强的泛化能力。

Transformer（https://huggingface.co/papers?q=Transformers）用随序列长度增长的记忆，取代了循环结构，并借助自注意力（https://huggingface.co/papers?q=self-attention），实现对过往词元的临时查找。因此，它们缺乏将历史压缩为具有一致转移规则的紧凑潜在状态的内在激励，这往往导致学习到的解决方案泛化能力较差。我们提出了 Next-Latent Prediction（NextLat），它在标准的下一词元训练（https://huggingface.co/papers?q=next-token%20training）基础上，额外引入了潜在空间（https://huggingface.co/papers?q=latent%20space）中的自监督预测。具体而言，NextLat 训练一个 Transformer，使其学习的潜在表示能够在给定下一输出词元的条件下，预测其自身的下一个潜在状态。理论上，我们证明这些潜在向量必然会收敛到信念状态（https://huggingface.co/papers?q=belief%20states），即预测未来所需的历史信息的压缩表示。这个简单的辅助目标还为 Transformer 注入了循环归纳偏置，同时不改变其架构、并行训练和推理方式。NextLat 有效地鼓励 Transformer 利用自身的信念状态（https://huggingface.co/papers?q=belief%20states）和转移动态，形成紧凑的内部世界模型——这是标准下一词元预测 Transformer（https://huggingface.co/papers?q=transformers）所缺乏的关键特性。在针对核心序列建模能力（世界建模（https://huggingface.co/papers?q=world%20modeling）、推理（https://huggingface.co/papers?q=reasoning）、规划（https://huggingface.co/papers?q=planning）和语言建模（https://huggingface.co/papers?q=language%20modeling））的基准测试中，NextLat 在下游准确率、表示压缩（https://huggingface.co/papers?q=representation%20compression）和前向规划（https://huggingface.co/papers?q=lookahead%20planning）方面，相比标准的下一词元训练（https://huggingface.co/papers?q=next-token%20training）都取得了显著提升。NextLat 是一种简单高效的范式，能够引导 Transformer 的表示朝向更强的泛化能力发展。

查看 arXiv 页面 (https://arxiv.org/abs/2511.05963) 查看 PDF (https://arxiv.org/pdf/2511.05963) 项目页面 (https://jaydenteoh.github.io/blog/2026/nextlat) GitHub54 (https://github.com/JaydenTeoh/NextLat) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2511.05963)

在你的 agent 中获取此论文：

hf papers read 2511\.05963

没有最新版 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2511.05963 即可在此页面链接。

引用此论文的数据集1

JaydenTeoh/manhattan 查看器• 更新于3月2日 • 91.6M • 428 • 1 (https://huggingface.co/datasets/JaydenTeoh/manhattan)

引用此论文的 Space0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2511.05963 即可在此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

添加此论文到一个收藏集 (https://huggingface.co/new-collection) 即可在此页面链接。

Next-Latent Prediction Transformers 学习紧凑世界模型

论文页面 - Next-Latent Prediction Transformers Learn Compact World Models

摘要

引用此论文的模型0

引用此论文的数据集1

JaydenTeoh/manhattan 查看器• 更新于3月2日 • 91.6M • 428 • 1 (https://huggingface.co/datasets/JaydenTeoh/manhattan)

引用此论文的 Space0

包含此论文的收藏集0

相似文章

下一代潜在预测变换器 [R]

Looped World Models

NITP：面向大语言模型预训练的下一隐式标记预测

World Machine：面向时间序列的生成式世界建模

使用稀疏Transformer进行生成建模

提交意见反馈