Next-Latent Prediction Transformers 学习紧凑世界模型

Papers with Code Trending 论文

摘要

介绍了 Next-Latent Prediction (NextLat),这是一种自监督目标,训练 Transformer 预测其下一个潜在状态,鼓励形成紧凑的内部世界模型,并提高跨序列建模任务的泛化能力。

Transformer 用随序列长度增长的记忆和能够对过去 token 进行即席查找的自注意力机制取代了循环。因此,它们缺乏将历史压缩为具有一致转换规则的紧凑潜在状态的内在激励。这通常会导致学习到的解决方案泛化能力差。我们引入了 Next-Latent Prediction (NextLat),它将标准的下一 token 训练扩展为在潜在空间中的自监督预测。具体来说,NextLat 训练 Transformer 学习潜在表示,这些表示能够根据下一个输出 token 预测其下一个潜在状态。从理论上讲,我们证明这些潜在状态可证明地收敛到信念状态,即预测未来所需的历史压缩信息。这个简单的辅助目标也为 Transformer 注入了循环归纳偏置,同时保持其架构、并行训练和推理不变。NextLat 有效地鼓励 Transformer 利用其自身的信念状态和转换动态形成紧凑的内部世界模型——这是标准下一 token 预测 Transformer 所缺失的关键属性。在针对核心序列建模能力(世界建模、推理、规划和语言建模)的基准测试中,NextLat 在下游准确性、表示压缩和前瞻规划方面相比标准下一 token 训练表现出了显著提升。NextLat 为塑造 Transformer 表示以实现更强泛化提供了一种简单高效的范式。
查看原文
查看缓存全文

缓存时间: 2026/06/17 23:38

论文页面 - Next-Latent Prediction Transformers Learn Compact World Models

来源:https://huggingface.co/papers/2511.05963

摘要

Next-Latent Prediction 通过引入自监督的潜在状态预测,增强了 Transformer 架构,在序列建模任务中实现了更有效的历史压缩和更强的泛化能力。

Transformer(https://huggingface.co/papers?q=Transformers)用随序列长度增长的记忆,取代了循环结构,并借助自注意力(https://huggingface.co/papers?q=self-attention),实现对过往词元的临时查找。因此,它们缺乏将历史压缩为具有一致转移规则的紧凑潜在状态的内在激励,这往往导致学习到的解决方案泛化能力较差。我们提出了 Next-Latent Prediction(NextLat),它在标准的下一词元训练(https://huggingface.co/papers?q=next-token%20training)基础上,额外引入了潜在空间(https://huggingface.co/papers?q=latent%20space)中的自监督预测。具体而言,NextLat 训练一个 Transformer,使其学习的潜在表示能够在给定下一输出词元的条件下,预测其自身的下一个潜在状态。理论上,我们证明这些潜在向量必然会收敛到信念状态(https://huggingface.co/papers?q=belief%20states),即预测未来所需的历史信息的压缩表示。这个简单的辅助目标还为 Transformer 注入了循环归纳偏置,同时不改变其架构、并行训练和推理方式。NextLat 有效地鼓励 Transformer 利用自身的信念状态(https://huggingface.co/papers?q=belief%20states)和转移动态,形成紧凑的内部世界模型——这是标准下一词元预测 Transformer(https://huggingface.co/papers?q=transformers)所缺乏的关键特性。在针对核心序列建模能力(世界建模(https://huggingface.co/papers?q=world%20modeling)、推理(https://huggingface.co/papers?q=reasoning)、规划(https://huggingface.co/papers?q=planning)和语言建模(https://huggingface.co/papers?q=language%20modeling))的基准测试中,NextLat 在下游准确率、表示压缩(https://huggingface.co/papers?q=representation%20compression)和前向规划(https://huggingface.co/papers?q=lookahead%20planning)方面,相比标准的下一词元训练(https://huggingface.co/papers?q=next-token%20training)都取得了显著提升。NextLat 是一种简单高效的范式,能够引导 Transformer 的表示朝向更强的泛化能力发展。

查看 arXiv 页面 (https://arxiv.org/abs/2511.05963) 查看 PDF (https://arxiv.org/pdf/2511.05963) 项目页面 (https://jaydenteoh.github.io/blog/2026/nextlat) GitHub54 (https://github.com/JaydenTeoh/NextLat) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2511.05963)

在你的 agent 中获取此论文:

hf papers read 2511\.05963

没有最新版 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2511.05963 即可在此页面链接。

引用此论文的数据集1

JaydenTeoh/manhattan 查看器• 更新于3月2日 • 91.6M • 428 • 1 (https://huggingface.co/datasets/JaydenTeoh/manhattan)

引用此论文的 Space0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2511.05963 即可在此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

添加此论文到一个收藏集 (https://huggingface.co/new-collection) 即可在此页面链接。

相似文章

下一代潜在预测变换器 [R]

Reddit r/MachineLearning

微软研究院提出Next-Latent Prediction (NextLat)方法,一种自监督学习方法,训练变换器预测自身下一个潜在状态,从而形成用于推理和规划的紧凑世界模型,并通过自推测解码实现高达3.3倍的推理加速。

Looped World Models

Hugging Face Daily Papers

Looped World Models 通过共享的Transformer块引入迭代潜在状态细化,实现了100倍的参数效率,同时根据预测复杂度自适应调整计算深度。

World Machine:面向时间序列的生成式世界建模

arXiv cs.LG

World Machine 提出了一种基于 Transformer 的生成式世界建模架构,用于时间序列分析。该架构通过潜在状态自适应地处理不同长度的上下文,解决了传统 Transformer 的二次内存成本问题。在合成数据集上的实验验证了该方法的可行性,并显示出相比传统 Transformer 的改进。

使用稀疏Transformer进行生成建模

OpenAI Blog

OpenAI推出了稀疏Transformer,一种深度神经网络,将注意力机制的复杂度从O(N²)优化到O(N√N),使得能够对长度超过以前30倍的序列进行建模,适用于文本、图像和音频领域。该模型采用稀疏注意力模式和基于检查点的内存优化技术,可以训练深达128层的网络,在多个领域实现了最先进的性能。