下一代潜在预测变换器 [R]

Reddit r/MachineLearning 论文

摘要

微软研究院提出Next-Latent Prediction (NextLat)方法,一种自监督学习方法,训练变换器预测自身下一个潜在状态,从而形成用于推理和规划的紧凑世界模型,并通过自推测解码实现高达3.3倍的推理加速。

[微软研究院预印本](https://preview.redd.it/efm7zazr2t7h1.png?width=2950&format=png&auto=webp&s=444dc71b22bca0c499f56367f705fb4ea23d07b8) 下一个token预测是短视的。如果变换器学会预测自己的下一个潜在状态会怎样?微软研究院提出了 **Next-Latent Prediction (NextLat)**:一种自监督学习方法,教会变换器形成用于推理和规划的紧凑世界模型。它还通过自推测解码实现了高达3.3倍的推理加速!在下一个token预测的基础上,NextLat训练变换器根据当前潜在状态和下一个token预测其自身的下一个潜在状态。NextLat有几个关键优势:1. **表示学习**:NextLat鼓励变换器将历史压缩成紧凑的信念状态。2. **更高的数据效率**:在潜在空间中预测比预测one-hot token提供更密集的监督信号。3. **更快的推理**:通过递归多步前瞻。我对这项工作感到非常兴奋。请查看以下内容:💬 博客:[https://jaydenteoh.github.io/blog/2026/nextlat](https://jaydenteoh.github.io/blog/2026/nextlat) 💻 代码:[https://github.com/JaydenTeoh](https://github.com/JaydenTeoh) 📝 论文:[https://arxiv.org/abs/2511.05963](https://arxiv.org/abs/2511.05963)
查看原文

相似文章

Next-Latent Prediction Transformers 学习紧凑世界模型

Papers with Code Trending

介绍了 Next-Latent Prediction (NextLat),这是一种自监督目标,训练 Transformer 预测其下一个潜在状态,鼓励形成紧凑的内部世界模型,并提高跨序列建模任务的泛化能力。

快速字节潜在Transformer

Hugging Face Daily Papers

本文介绍了用于字节级语言模型的BLT扩散(BLT Diffusion)和投机解码技术,在保持生成质量的同时,显著降低了生成延迟和内存带宽成本。

使用稀疏Transformer进行生成建模

OpenAI Blog

OpenAI推出了稀疏Transformer,一种深度神经网络,将注意力机制的复杂度从O(N²)优化到O(N√N),使得能够对长度超过以前30倍的序列进行建模,适用于文本、图像和音频领域。该模型采用稀疏注意力模式和基于检查点的内存优化技术,可以训练深达128层的网络,在多个领域实现了最先进的性能。