下一代潜在预测变换器 [R]

Reddit r/MachineLearning 2026/06/17 08:44 论文

摘要

微软研究院提出Next-Latent Prediction (NextLat)方法，一种自监督学习方法，训练变换器预测自身下一个潜在状态，从而形成用于推理和规划的紧凑世界模型，并通过自推测解码实现高达3.3倍的推理加速。

[微软研究院预印本](https://preview.redd.it/efm7zazr2t7h1.png?width=2950&format=png&auto=webp&s=444dc71b22bca0c499f56367f705fb4ea23d07b8) 下一个token预测是短视的。如果变换器学会预测自己的下一个潜在状态会怎样？微软研究院提出了 **Next-Latent Prediction (NextLat)**：一种自监督学习方法，教会变换器形成用于推理和规划的紧凑世界模型。它还通过自推测解码实现了高达3.3倍的推理加速！在下一个token预测的基础上，NextLat训练变换器根据当前潜在状态和下一个token预测其自身的下一个潜在状态。NextLat有几个关键优势：1. **表示学习**：NextLat鼓励变换器将历史压缩成紧凑的信念状态。2. **更高的数据效率**：在潜在空间中预测比预测one-hot token提供更密集的监督信号。3. **更快的推理**：通过递归多步前瞻。我对这项工作感到非常兴奋。请查看以下内容：💬 博客：[https://jaydenteoh.github.io/blog/2026/nextlat](https://jaydenteoh.github.io/blog/2026/nextlat) 💻 代码：[https://github.com/JaydenTeoh](https://github.com/JaydenTeoh) 📝 论文：[https://arxiv.org/abs/2511.05963](https://arxiv.org/abs/2511.05963)

查看原文

下一代潜在预测变换器 [R]

相似文章

Next-Latent Prediction Transformers 学习紧凑世界模型

NITP：面向大语言模型预训练的下一隐式标记预测

快速字节潜在Transformer

使用稀疏Transformer进行生成建模

@machinestein: ICML 2026：TRMs中的潜在推理实际上是策略改进算子为什么递归推理，尤其是…

提交意见反馈