NITP:面向大语言模型预训练的下一隐式标记预测
摘要
下一隐式标记预测(NITP)通过在表示空间中添加密集的连续监督来增强语言模型预训练,从而在各种模型规模上以极小的计算开销提升泛化能力和性能。
查看缓存全文
缓存时间: 2026/06/02 03:24
论文页面 - NITP: Next Implicit Token Prediction for LLM Pre-training
来源:https://huggingface.co/papers/2605.24956
摘要
Next Implicit Token Prediction 通过在表示空间中增加稠密连续监督来增强语言模型训练,从而在不同模型规模下提升泛化能力和性能,且计算开销极小。
标准的下一个词元预测(NTP)仅通过输出 logit 空间中的离散标签来监督语言模型。我们认为这种稀疏的独热监督使得潜在表示空间约束不足,导致隐藏状态可能漂移至退化且各向异性的配置,从而限制泛化能力。为解决此问题,我们提出了 Next Implicit Token Prediction(NITP),该方法直接在表示空间中用稠密连续监督来增强离散预测。NITP 训练模型预测下一个词元的隐式语义内容,并使用同一模型的浅层表示作为稳定的自监督目标。我们提供了理论分析,表明 NITP 通过缓解欠约束的自由度并鼓励紧凑、结构化的表示几何来正则化优化景观。实验上,在参数规模从 0.5B 到 9B 的密集模型和MoE 模型中,NITP 以可忽略的计算开销持续提升了下游性能。在 9B MoE 模型上,NITP 在 MMLU-Pro 上取得了 5.7% 的绝对提升,在 C3 上提升 6.4%,在 CommonsenseQA 上提升 4.3%,而额外训练 FLOPs 仅为约 2%,且无额外推理成本。我们的实现见 https://github.com/aHapBean/NITP。
查看 arXiv 页面查看 PDFGitHub21添加到收藏
在您的 agent 中获取此论文:
hf papers read 2605.24956
没有最新版 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本论文的模型0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2605.24956 以从此页面链接。
引用本论文的数据集0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.24956 以从此页面链接。
引用本论文的 Space0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2605.24956 以从此页面链接。
包含此论文的合集1
相似文章
吐槽:别再说什么LLM只是“下一个词预测器”了。
对LLM“只是下一个词预测器”这一过于简单化的说法提出批判,认为大规模预测会诱导出有用的表示和能力,并且这种轻率的否定混淆了目标与学习系统。
使用Token叠加的高效预训练
Token叠加训练(TST)通过将连续token组合成包并在叠加阶段使用多热交叉熵目标,在不改变架构的情况下实现预训练时间最多减少2.5倍,从而提高LLM预训练效率。
Nous Research 发布 Token Superposition Training,可将 LLM 预训练速度提升高达 2.5 倍,覆盖 270M 至 10B 参数模型
Nous Research 发布 Token Superposition Training (TST),这是一种可将 LLM 预训练速度提升高达 2.5 倍的方法,覆盖 270M 至 10B 参数模型,在不改变架构或数据的情况下减少实际运行时间。
LEAP:通过前瞻早期收敛令牌检测释放 dLLM 并行潜力
本文介绍了 LEAP,这是一种无需训练的方法,旨在通过检测早期收敛令牌来加速扩散语言模型(dLLMs)的推理过程。该方法能在不损失准确性的前提下,将去噪步骤减少 30%。
PromptNCE: 仅使用大语言模型和对比估计提示的点互信息预测
本文介绍了PromptNCE,一种使用大语言模型和对比提示来零样本估计点互信息的方法,在三个数据集上实现了与人类标注真实值的高度相关性。