NITP:面向大语言模型预训练的下一隐式标记预测

Hugging Face Daily Papers 论文

摘要

下一隐式标记预测(NITP)通过在表示空间中添加密集的连续监督来增强语言模型预训练,从而在各种模型规模上以极小的计算开销提升泛化能力和性能。

标准的下一标记预测(NTP)仅通过输出logit空间中的离散标签来监督语言模型。我们认为这种稀疏的独热监督使得潜在表示空间约束不足,导致隐藏状态可能漂移到退化和各向异性的结构,从而限制泛化能力。为解决此问题,我们提出下一隐式标记预测(NITP),它在表示空间中直接引入密集的连续监督来增强离散预测。NITP训练模型预测下一标记的隐式语义内容,使用同一模型的浅层表示作为稳定的自监督目标。我们提供的理论分析表明,NITP通过缓解约束不足的自由度并鼓励紧凑且结构化的表示几何,来正则化优化景观。实验上,在从0.5B到9B参数的密集模型和MoE模型上,NITP以可忽略的计算开销一致提升了下游任务性能。在9B MoE模型上,NITP在MMLU-Pro上取得了5.7%的绝对提升,同时在C3和CommonsenseQA上分别获得6.4%和4.3%的提升,训练FLOPs仅增加约2%,且无需额外推理成本。我们的实现可在 https://github.com/aHapBean/NITP 获取。
查看原文
查看缓存全文

缓存时间: 2026/06/02 03:24

论文页面 - NITP: Next Implicit Token Prediction for LLM Pre-training

来源:https://huggingface.co/papers/2605.24956

摘要

Next Implicit Token Prediction 通过在表示空间中增加稠密连续监督来增强语言模型训练,从而在不同模型规模下提升泛化能力和性能,且计算开销极小。

标准的下一个词元预测(NTP)仅通过输出 logit 空间中的离散标签来监督语言模型。我们认为这种稀疏的独热监督使得潜在表示空间约束不足,导致隐藏状态可能漂移至退化且各向异性的配置,从而限制泛化能力。为解决此问题,我们提出了 Next Implicit Token Prediction(NITP),该方法直接在表示空间中用稠密连续监督来增强离散预测。NITP 训练模型预测下一个词元的隐式语义内容,并使用同一模型的浅层表示作为稳定的自监督目标。我们提供了理论分析,表明 NITP 通过缓解欠约束的自由度并鼓励紧凑、结构化的表示几何来正则化优化景观。实验上,在参数规模从 0.5B 到 9B 的密集模型和MoE 模型中,NITP 以可忽略的计算开销持续提升了下游性能。在 9B MoE 模型上,NITP 在 MMLU-Pro 上取得了 5.7% 的绝对提升,在 C3 上提升 6.4%,在 CommonsenseQA 上提升 4.3%,而额外训练 FLOPs 仅为约 2%,且无额外推理成本。我们的实现见 https://github.com/aHapBean/NITP。

查看 arXiv 页面查看 PDFGitHub21添加到收藏

在您的 agent 中获取此论文:

hf papers read 2605.24956

没有最新版 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用本论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.24956 以从此页面链接。

引用本论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.24956 以从此页面链接。

引用本论文的 Space0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.24956 以从此页面链接。

包含此论文的合集1

相似文章

使用Token叠加的高效预训练

Hugging Face Daily Papers

Token叠加训练(TST)通过将连续token组合成包并在叠加阶段使用多热交叉熵目标,在不改变架构的情况下实现预训练时间最多减少2.5倍,从而提高LLM预训练效率。