下一个令牌预测何时有用?边际化、遍历性、混合可识别性、局部充分性、RAG、工具与编程
摘要
本文区分了语言建模中常被混淆的三个概率对象——完整条件语言过程、边际纯文本法则和模型诱导分布——并分析了下一个令牌预测有用的条件,将 RAG 和工具解释为条件充分性设备。
arXiv:2605.23278v1 公告类型:新 \n摘要:基于观测序列训练的语言模型通常被描述为学习给定前一个令牌的下一个令牌的条件分布。这种描述只是有条件的正确。在已实现的令牌轨迹上训练的模型并不会观测到完整的条件法则;它接收的是采样得到的延续。此外,真实语言生成不仅受前文词语的限制,还受非文本情境的影响:事实、事件、意图、目标、信念、社会背景和任务特定约束。本文区分了三个常被混淆的对象:基于潜在情境的完整条件语言过程、通过积分掉这些情境得到的边际纯文本过程,以及从有限观测语料中学习到的模型诱导分布。\n 本文认为,将模型训练解释为估计边际纯文本法则需要平稳性、代表性和遍历性等强假设,这些假设在统计估计中是标准的,但应用于异质语言语料库时却存在问题。即使这些假设成立,边际纯文本法则也只有当观测前缀是延续相关潜在情境的近似充分统计量时才是有用的。用信息论的术语来说,有用性要求:给定观测文本时,下一个令牌与被忽略情境之间的残余条件互信息很小。\n 然后,本文将此论证扩展到异质训练语料库。\n 最后,本文将检索增强生成(RAG)和工具使用解释为条件充分性设备。
查看缓存全文
缓存时间: 2026/05/25 09:00
# 何时下一个Token预测是有用的?边缘化、遍历性、混合可识别性、局部充分性、RAG、工具与编程
来源:https://arxiv.org/html/2605.23278
###### 摘要
在观测序列上训练的语言模型常被描述为学习给定前文Token条件下下一个Token的条件分布。这种描述只在有条件的意义上成立。一个在真实Token轨迹上训练的模型并未观测到完整的条件分布;它接收的是采样延续。此外,真实语言生成不仅依赖于前文词语,还依赖于非文本环境:事实、事件、意图、目标、信念、社会背景以及特定任务的约束。本文区分了三个常被混淆的对象:以潜在环境为条件的完整条件语言过程,通过整合这些环境得到的纯文本边缘过程,以及从有限观测语料中学习到的模型诱导分布。
本文认为,将模型训练解释为估计纯文本边缘分布需要强假设:平稳性、代表性和遍历性——这些假设在统计估计中是标准的,但在应用于异质语言语料库时存在问题[4 (https://arxiv.org/html/2605.23278#bib.bib4),8 (https://arxiv.org/html/2605.23278#bib.bib8),22 (https://arxiv.org/html/2605.23278#bib.bib22)]。即使这些假设成立,纯文本边缘分布也只有在观测到的前缀对于与延续相关的潜在环境近似是一种充分统计量时才有用。从信息论的角度来说,有用性要求:在给定观测文本的条件下,下一个Token与被省略环境之间的剩余条件互信息很小。
然后本文将这一论证扩展到异质训练语料。语言模型是在编程、数学、小说、新闻、法律、社交媒体、对话、手册等多种领域的模糊混合上训练的。只有当异质过程是稳定的、有代表性的、遍历的,并且能够从文本前缀中充分识别时,模型才能学到正确的纯文本混合条件。这引出了可学习性与有用性之间的区别:模型可能学到了正确的混合条件,但该条件在特定情境中并不具有认知上的有用性。
最后,本文将检索增强生成(RAG)和工具使用解释为条件充分性装置,这遵循了检索增强语言建模和工具增强语言建模的相关文献[20 (https://arxiv.org/html/2605.23278#bib.bib20),6 (https://arxiv.org/html/2605.23278#bib.bib6),28 (https://arxiv.org/html/2605.23278#bib.bib28),36 (https://arxiv.org/html/2605.23278#bib.bib36),18 (https://arxiv.org/html/2605.23278#bib.bib18),10 (https://arxiv.org/html/2605.23278#bib.bib10)]。RAG和工具并非自动成为缺失上下文的代理。它们只有在以检索到的材料或工具输出为条件后,使得剩余潜在环境变得不相关(或至少对延续的信息量大大减少)时才有用。编程被分析为一个有利的案例,因为规范、先前代码、测试、错误信息、文档通常将大量相关潜在状态文本化了。
###### 目录
1. 1引言 (https://arxiv.org/html/2605.23278#S1)
2. 2三个常被混淆的不同对象 (https://arxiv.org/html/2605.23278#S2)1. 2\.1 完整条件语言过程 (https://arxiv.org/html/2605.23278#S2.SS1) 2. 2\.2 纯文本边缘条件分布 (https://arxiv.org/html/2605.23278#S2.SS2) 3. 2\.3 模型诱导的预测分布 (https://arxiv.org/html/2605.23278#S2.SS3)
3. 3训练实际观测到什么 (https://arxiv.org/html/2605.23278#S3)
4. 4遍历性要求 (https://arxiv.org/html/2605.23278#S4)
5. 5边缘化是不够的 (https://arxiv.org/html/2605.23278#S5)
6. 6一个有用的信息论判据 (https://arxiv.org/html/2605.23278#S6)
7. 7混合训练机制与局部充分性岛屿 (https://arxiv.org/html/2605.23278#S7)
8. 8混合可识别性与局部条件分布 (https://arxiv.org/html/2605.23278#S8)1. 8\.1 提示敏感性 (https://arxiv.org/html/2605.23278#S8.SS1) 2. 8\.2 风格-内容混淆 (https://arxiv.org/html/2605.23278#S8.SS2) 3. 8\.3 虚假权威 (https://arxiv.org/html/2605.23278#S8.SS3) 4. 8\.4 局部能力 (https://arxiv.org/html/2605.23278#S8.SS4) 5. 8\.5 跨机制污染 (https://arxiv.org/html/2605.23278#S8.SS5)
9. 9为什么普通事实性语言通常不满足该判据 (https://arxiv.org/html/2605.23278#S9)
10. 10编程作为有利案例 (https://arxiv.org/html/2605.23278#S10)
11. 11RAG作为潜在环境的文本化 (https://arxiv.org/html/2605.23278#S11)
12. 12工具使用作为对非文本状态的外部访问 (https://arxiv.org/html/2605.23278#S12)
13. 13对温度的后果 (https://arxiv.org/html/2605.23278#S13)
14. 14合成污染与递归训练 (https://arxiv.org/html/2605.23278#S14)
15. 15教育意义 (https://arxiv.org/html/2605.23278#S15)
16. 16提示、非观测条件与上下文注入的局限性 (https://arxiv.org/html/2605.23278#S16)
17. 17结论 (https://arxiv.org/html/2605.23278#S17)
18. 参考文献 (https://arxiv.org/html/2605.23278#bib)
## 1 引言
关于语言模型的一个常见论述是,它们学习在给定前文词语或Token的情况下下一个词语或Token的概率分布,这一观点源自Shannon开创并由现代NLP发展的统计语言建模传统[29 (https://arxiv.org/html/2605.23278#bib.bib29),30 (https://arxiv.org/html/2605.23278#bib.bib30),22 (https://arxiv.org/html/2605.23278#bib.bib22),27 (https://arxiv.org/html/2605.23278#bib.bib27)]。这一表述抓住了语言建模的统计结构的一部分,但它隐藏了几个不同的假设。
首先,在序列上训练的语言模型并不直接观测条件概率分布。在最大似然语言建模中——从经典神经语言模型到当代Transformer——训练信号是一个真实的下一个Token,损失函数是针对该Token的交叉熵[2 (https://arxiv.org/html/2605.23278#bib.bib2),23 (https://arxiv.org/html/2605.23278#bib.bib23),34 (https://arxiv.org/html/2605.23278#bib.bib34),26 (https://arxiv.org/html/2605.23278#bib.bib26),7 (https://arxiv.org/html/2605.23278#bib.bib7)]。它们观测的是真实轨迹。对于每个上下文,它们通过增加分配给观测到的下一个Token的概率而获得奖励。因此,条件分布并非数据中存在的对象;它是一个推断出来的统计对象。
其次,真实语言生成并非仅以前文词语为条件。这与Bender和Koller强调的语言形式与意义或交际基础之间的区别密切相关[3 (https://arxiv.org/html/2605.23278#bib.bib3)]。人类话语依赖于潜在的和外部环境:事实、事件、交际意图、制度背景、社会关系、说话者信念、物理现实以及任务约束。一个纯文本语言模型只能在观测前缀被代表、暗示或可恢复的程度上访问这些变量。
第三,即使通过整合缺失环境来定义一个纯文本边缘条件分布,一个有限的语料库也只有在强假设下才能告知该边缘分布。语料库必须是稳定过程的充分代表性实现。用随机过程的语言来说,这需要类似于平稳性和遍历性的假设。
第四,即使模型正确估计了纯文本边缘分布,这也不能保证有用性。只有当文本前缀对于与延续相关的省略环境近似为充分统计量时,边缘分布才是有用的。
第五,真实的训练语料是异质的混合体。它们包含一些局部机制,在这些机制中文本充分性近似成立,同时也包含许多不成立的情况。因此,在这种混合上训练的模型在某些领域可能局部可靠,而在其他领域不可靠,但在所有地方都能产生同样流畅的输出。
第六,异质训练引入了一个额外的可学习性问题。为了让模型学到正确的混合条件,文本前缀必须提供足够的信息,以便至少概率性地推断出前缀是由哪个组分机制生成的。如果机制是可识别的,那么局部条件分布就可以被学习。如果不是,则模型只能学习到一个关于异质延续的混合分布。
本文形式化了这些区别,并推导出一个判断下一个Token预测何时有用的判据。然后讨论了编程作为一个有利案例,并阐明了检索增强生成(RAG)和工具使用作为改善条件上下文充分性的尝试所起的作用[20 (https://arxiv.org/html/2605.23278#bib.bib20),6 (https://arxiv.org/html/2605.23278#bib.bib6),28 (https://arxiv.org/html/2605.23278#bib.bib28),36 (https://arxiv.org/html/2605.23278#bib.bib36),18 (https://arxiv.org/html/2605.23278#bib.bib18),10 (https://arxiv.org/html/2605.23278#bib.bib10)]。这一点刻意与架构无关:该论证适用于任何在观测序列上训练的语言模型,从经典统计语言模型到当代神经模型和LLM。
本文故意不讨论语言模型的另一个更严重的问题。即使纯文本语言分布被成功估计,这一事实也丝毫不能保证生成的序列对应真实陈述。这是一个独立的问题。一个模型可能学会了语言延续的分布,但仍然产生虚假的事实性断言、无效的论证或错误的算术运算。标准语言模型不包含内在的真值检查器或有效性检查器;它们的目标是为序列分配概率,而不是验证与事实、证明、执行或计算的对应关系。因此,真实性取决于两个不可混淆的性质:第一,相关的语言分布是否被正确学习;第二,该分布中高概率的延续在目标领域中是否为真或有效。幻觉和事实性研究使这一区别成为核心,即使在算术或符号推理等任务中,外部执行或验证通常也需要将合理的生成文本与正确结果区分开来[16 (https://arxiv.org/html/2605.23278#bib.bib16),15 (https://arxiv.org/html/2605.23278#bib.bib15),17 (https://arxiv.org/html/2605.23278#bib.bib17),10 (https://arxiv.org/html/2605.23278#bib.bib10),28 (https://arxiv.org/html/2605.23278#bib.bib28)]。
## 2 三个常被混淆的不同对象
记$X_{t}$为位置$t$上的Token,并记
$X_{\leq t}=(X_1,\ldots,X_t)$
为观测到的文本历史。记$Z_t$为时间$t$时与语言生产相关的非文本环境。这些可能包括
$Z_t=(\text{世界状态},\text{事实},\text{事件},\text{说话者信念},\text{目标},\text{意图},\text{受众},\text{任务约束},\ldots)$。
区分三个对象是有用的。
### 2.1 完整条件语言过程
完整条件过程为
$p_{\mathrm{full}}(x_{t+1} \mid x_{\leq t}, z_t)$。
该对象描述了在给定文本前缀和相关非文本环境下的延续概率。它是最接近真实语言生产的对象。一个人说话不仅仅是前文词语统计上暗示了延续。一个人说话与意图、事实、感知、社会压力、任务和目标相关。
### 2.2 纯文本边缘条件分布
如果$Z_t$未被观测,可以定义纯文本边缘条件分布:
$p_{\mathrm{marg}}(x_{t+1} \mid x_{\leq t}) = \int p_{\mathrm{full}}(x_{t+1} \mid x_{\leq t}, z) p(z \mid x_{\leq t}) dz$。
这是一个理论对象。它是在整合潜在环境后,给定前文词符条件下未来词符的条件分布。重要的是,这不是完整的人类语言过程。它是在相关环境被平均掉之后的完整过程。
### 2.3 模型诱导的预测分布
一个带有参数$\theta$的语言模型定义了
$p_{\theta}(x_{t+1} \mid x_{\leq t})$。
在解码温度$T$下,logits $\ell_i$被变换为
$p_{\theta,T}(i \mid x_{\leq t}) = \frac{\exp(\ell_i / T)}{\sum_j \exp(\ell_j / T)}$。
模型从$p_{\theta,T}$中采样,而不是从$p_{\mathrm{full}}$中采样。$p_{\theta,T}$也不能自动等同于$p_{\mathrm{marg}}$。这些对象之间的关系取决于假设。
完整过程$p_{\mathrm{full}}(x_{t+1} \mid x_{\leq t}, z_t)$
纯文本边缘分布$p_{\mathrm{marg}}(x_{t+1} \mid x_{\leq t})$
模型诱导分布$p_{\theta}(x_{t+1} \mid x_{\leq t})$
解码分布$p_{\theta,T}(x_{t+1} \mid x_{\leq t})$
边缘化潜在背景
遍历性 + 代表性语料 + 优化
温度变换
图1:四个不同的分布。模型从最后一个对象中采样。将其等同于前面的对象需要假设。
## 3 训练实际观测到什么
在标准的下一个Token训练中,模型看到真实的Token序列
$(x_1^{(m)},\ldots,x_{T_m}^{(m)}), \quad m=1,\ldots,M$。
对于每个位置$t$,训练信号是真实的一对
$(x_{\leq t}^{(m)}, x_{t+1}^{(m)})$。
标准最大似然目标是交叉熵损失[4 (https://arxiv.org/html/2605.23278#bib.bib4),8 (https://arxiv.org/html/2605.23278#bib.bib8)]:
$\mathcal{L}(\theta)= -\sum_{m=1}^{M}\sum_{t=1}^{T_m} \log p_{\theta}(x_{t+1}^{(m)} \mid x_{\leq t}^{(m)})$。
对于单个训练实例,损失通过将概率一分配给观测到的下一个Token而达到最小:
$p_{\theta}(x_{t+1}^{(m)} \mid x_{\leq t}^{(m)}) = 1$。
当然,由于共享参数以及许多相关或冲突的上下文,全局最优通常无法将概率一分配给每个观测到的延续。模型必须压缩、插值并泛化。
尽管如此,即时的训练信号并非完整的条件分布。这一点还与在观测前缀上的强制教学训练与模型输出上的自由运行生成之间的区别有关,这一区别在暴露偏差的文献中有所讨论[13 (https://arxiv.org/html/2605.23278#bib.bib13)]。它是一个真实的延续。因此,关于模型学习了下个Token条件分布的说法必须被理解为渐近统计推断。相似文章
大规模语言模型的概率归因
本文提出了一种与模型无关的基于概率的令牌归因度量,利用贝叶斯规则反转下一个令牌的对数概率,捕捉模型对令牌序列的内部表示,并通过熵分析提高可解释性。
外部观察者的必要性:形式化充分性差距——混合可识别性与序列模型中上下文基础的数学扩展
本文形式化了下个token预测中的充分性差距,证明即使理想的序列模型在文本前缀不足以统计潜在情况时,也可能变得过于自信。它提出了一种外部观察者机制来减少但无法消除这一差距。
吐槽:别再说什么LLM只是“下一个词预测器”了。
对LLM“只是下一个词预测器”这一过于简单化的说法提出批判,认为大规模预测会诱导出有用的表示和能力,并且这种轻率的否定混淆了目标与学习系统。
基于分位词元与邻居上下文的文本到分布预测
亚马逊与斯坦福研究者提出分位词元回归,通过在 LLM 输入中插入专用分位词元来预测完整概率分布,在 Airbnb 与 Stack Overflow 基准上实现约 4 个百分点 MAPE 降低与 2 倍更窄区间。
TPA: 用于检测RAG中幻觉的下一个令牌概率归因
TPA提出了一种新颖的方法,通过将下一个令牌概率归因于七个不同的源头(查询、RAG上下文、过去令牌、自身令牌、FFN、最终LayerNorm、初始嵌入),并按词性标签聚合,来检测RAG系统中的幻觉。该方法在包括Llama2、Llama3、Mistral和Qwen在内的五个大语言模型上实现了最先进的性能。