Next-Latent Prediction Transformers 学习紧凑世界模型
摘要
介绍了 Next-Latent Prediction (NextLat),这是一种自监督目标,训练 Transformer 预测其下一个潜在状态,鼓励形成紧凑的内部世界模型,并提高跨序列建模任务的泛化能力。
查看缓存全文
缓存时间: 2026/06/17 23:38
论文页面 - Next-Latent Prediction Transformers Learn Compact World Models
来源:https://huggingface.co/papers/2511.05963
摘要
Next-Latent Prediction 通过引入自监督的潜在状态预测,增强了 Transformer 架构,在序列建模任务中实现了更有效的历史压缩和更强的泛化能力。
Transformer(https://huggingface.co/papers?q=Transformers)用随序列长度增长的记忆,取代了循环结构,并借助自注意力(https://huggingface.co/papers?q=self-attention),实现对过往词元的临时查找。因此,它们缺乏将历史压缩为具有一致转移规则的紧凑潜在状态的内在激励,这往往导致学习到的解决方案泛化能力较差。我们提出了 Next-Latent Prediction(NextLat),它在标准的下一词元训练(https://huggingface.co/papers?q=next-token%20training)基础上,额外引入了潜在空间(https://huggingface.co/papers?q=latent%20space)中的自监督预测。具体而言,NextLat 训练一个 Transformer,使其学习的潜在表示能够在给定下一输出词元的条件下,预测其自身的下一个潜在状态。理论上,我们证明这些潜在向量必然会收敛到信念状态(https://huggingface.co/papers?q=belief%20states),即预测未来所需的历史信息的压缩表示。这个简单的辅助目标还为 Transformer 注入了循环归纳偏置,同时不改变其架构、并行训练和推理方式。NextLat 有效地鼓励 Transformer 利用自身的信念状态(https://huggingface.co/papers?q=belief%20states)和转移动态,形成紧凑的内部世界模型——这是标准下一词元预测 Transformer(https://huggingface.co/papers?q=transformers)所缺乏的关键特性。在针对核心序列建模能力(世界建模(https://huggingface.co/papers?q=world%20modeling)、推理(https://huggingface.co/papers?q=reasoning)、规划(https://huggingface.co/papers?q=planning)和语言建模(https://huggingface.co/papers?q=language%20modeling))的基准测试中,NextLat 在下游准确率、表示压缩(https://huggingface.co/papers?q=representation%20compression)和前向规划(https://huggingface.co/papers?q=lookahead%20planning)方面,相比标准的下一词元训练(https://huggingface.co/papers?q=next-token%20training)都取得了显著提升。NextLat 是一种简单高效的范式,能够引导 Transformer 的表示朝向更强的泛化能力发展。
查看 arXiv 页面 (https://arxiv.org/abs/2511.05963) 查看 PDF (https://arxiv.org/pdf/2511.05963) 项目页面 (https://jaydenteoh.github.io/blog/2026/nextlat) GitHub54 (https://github.com/JaydenTeoh/NextLat) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2511.05963)
在你的 agent 中获取此论文:
hf papers read 2511\.05963
没有最新版 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2511.05963 即可在此页面链接。
引用此论文的数据集1
JaydenTeoh/manhattan 查看器• 更新于3月2日 • 91.6M • 428 • 1 (https://huggingface.co/datasets/JaydenTeoh/manhattan)
引用此论文的 Space0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2511.05963 即可在此页面链接。
包含此论文的收藏集0
没有收藏集包含此论文
添加此论文到一个收藏集 (https://huggingface.co/new-collection) 即可在此页面链接。
相似文章
下一代潜在预测变换器 [R]
微软研究院提出Next-Latent Prediction (NextLat)方法,一种自监督学习方法,训练变换器预测自身下一个潜在状态,从而形成用于推理和规划的紧凑世界模型,并通过自推测解码实现高达3.3倍的推理加速。
Looped World Models
Looped World Models 通过共享的Transformer块引入迭代潜在状态细化,实现了100倍的参数效率,同时根据预测复杂度自适应调整计算深度。
NITP:面向大语言模型预训练的下一隐式标记预测
下一隐式标记预测(NITP)通过在表示空间中添加密集的连续监督来增强语言模型预训练,从而在各种模型规模上以极小的计算开销提升泛化能力和性能。
World Machine:面向时间序列的生成式世界建模
World Machine 提出了一种基于 Transformer 的生成式世界建模架构,用于时间序列分析。该架构通过潜在状态自适应地处理不同长度的上下文,解决了传统 Transformer 的二次内存成本问题。在合成数据集上的实验验证了该方法的可行性,并显示出相比传统 Transformer 的改进。
使用稀疏Transformer进行生成建模
OpenAI推出了稀疏Transformer,一种深度神经网络,将注意力机制的复杂度从O(N²)优化到O(N√N),使得能够对长度超过以前30倍的序列进行建模,适用于文本、图像和音频领域。该模型采用稀疏注意力模式和基于检查点的内存优化技术,可以训练深达128层的网络,在多个领域实现了最先进的性能。