语言模型何时做出决策?关于前语言化承诺的有限答案理论

arXiv cs.AI 论文

摘要

本论文提出了一种有限答案理论,用于分析语言模型在输出文本之前何时对答案做出承诺。作者使用 Qwen3-4B-Instruct 演示,答案偏好在最终输出生成之前已显著稳定下来,这为理解潜在推理过程和模型内部状态提供了见解。

arXiv:2605.06723v1 公告类型:新文章 摘要:语言模型通常在给出最终答案之前生成推理过程,但可见答案并未揭示模型的答案偏好何时变得稳定。我们通过一个狭窄的可计算对象来研究这个问题:**有限答案偏好稳定化**。对于给定的模型状态和指定的答案词汇化器,我们将模型自身的续写概率投影到有限答案集上;在二元任务中,这产生了一个精确的对数几率编码,$\delta(\xi)=S_\theta(\mathrm{yes}\mid\xi)-S_\theta(\mathrm{no}\mid\xi)$。该目标定义了基于解析器的答案出现点、回溯性稳定时间以及领先优势,而无需依赖贪婪 rollout 或学习到的探针。在基于 Qwen3-4B-Instruct 的受控延迟裁决任务中,上下文有限答案投影在答案可解析之前就已稳定,在主要模板中平均领先 17-31 个 token,在解析器清理后的复制实验中显示出正向且较短的领先优势。该信号追踪模型的最终输出而非真实值,可以从紧凑的隐藏摘要中线性恢复,部分可与时序进度分离,并作为共享信息传递而不依赖于单一不变坐标。诊断测试将测量与在线停止、无词汇化器信念以及因果答案控制区分开来;精确引导显示了 $\delta$ 的局部敏感性,但并未实现可靠的生成控制。
查看原文
查看缓存全文

缓存时间: 2026/05/11 07:06

# 语言模型何时做出承诺:言语化前承诺的有限答案理论

来源:https://arxiv.org/html/2605.06723
Long Zhang, Wei-neng Chen$^1$[footnotemark:1], Feng-feng Wei, Zi-bo Qin
华南理工大学计算机科学与工程学院
中国广东省广州市
\{longzhang, cschenwn\}@scut.edu.cn

###### 摘要

语言模型通常在给出最终答案之前生成推理过程,但可见的答案无法揭示模型的答案偏好何时变得稳定。我们通过一个狭窄的可计算对象来研究这个问题:**有限答案偏好稳定化**。对于给定的模型状态和指定的答案言语化器(answer verbalizers),我们将模型自身的续写概率投影到有限的答案集合上;在二元任务中,这产生了一个精确的对数几率码(log-odds code),$\delta(\xi)=S_\theta(\mathrm{yes}|\xi)-S_\theta(\mathrm{no}|\xi)$。这一目标定义了基于解析器的答案起始点、回溯稳定时间以及领先步长(lead),且不依赖于贪婪采样(greedy rollouts)或学习到的探针(probes)。在基于 Qwen3-4B-Instruct 的控制型延迟判决任务中,上下文的有限答案投影在答案可解析之前就已稳定,在主模板中平均领先 17–31 个 token,在解析器干净的复现实验中表现为正且较短的领先。该信号追踪模型最终输出的内容而非事实真相,可以从紧凑的隐藏状态摘要中线性恢复,部分独立于光标进度,并作为共享信息转移,不存在单一的不变坐标。诊断方法将测量与在线停止、无言语化器的信念以及因果答案控制区分开来;精确的转向(steering)显示 $\delta$ 具有局部敏感性,但不能可靠地控制生成结果。

关键词:大型语言模型,潜在推理,思维链,机制可解释性,言语化前承诺

## 1 引言

语言模型通常在最终答案之前书写中间推理过程,且此类痕迹可以提高性能(Wei et al., 2022; Kojima et al., 2022; Wang et al., 2023b)。然而,响应的可见时间顺序未必与答案偏好的时间顺序一致。如果模型在其答案偏好稳定后继续书写,那么部分可见的推理发生在“承诺后”阶段,这种可能性与对理由忠实性(rationale faithfulness)和潜在推理(latent reasoning)的关注密切相关(Turpin et al., 2023; Lanham et al., 2023; Boppana et al., 2026; Liu et al., 2026)。

难点在于承诺并非一个 token。最终判决告诉我们模型最终说了什么,而不是该答案何时成为首选。确定性轨迹上的贪婪采样是同义反复的,而隐藏状态探针是不完整的:探针可以揭示可访问的信息,但不能定义模型当前的偏好或因果计算(Alain and Bengio, 2017; Belinkov, 2022b; a)。这些方法混淆了真实答案、最终生成的答案以及模型对可能答案续写的状态依赖概率质量。我们通过分离这些对象来定义承诺。

给定自回归状态,模型本身为所有有限续写分配概率。给定有限的答案集合和答案言语化器,我们将这些续写概率投影到答案集合上,遵循通过指定言语化器将语言模型概率映射到有限标签的一般思想(Schick and Schütze, 2021; Gao et al., 2021; Zhao et al., 2021)。在二元任务中,此投影产生一个精确的标量对数几率 $\delta(\xi)=S_\theta(\mathrm{yes}|\xi)-S_\theta(\mathrm{no}|\xi)$,它决定了诱导的答案分布、胜者、边际和熵。这个标量不是事后选择的探针目标;它是模型自身条件分布的可计算函数。这让我们可以提出一个时间性问题。

在延迟判决生成期间,我们在任何答案外部可见之前追踪 $\delta_t$。我们将答案起始点定义为解析器可以确定答案的第一个 token,承诺时间定义为诱导胜者与最终答案匹配且边际足够、随后不再翻转的第一个起始前位置,领先步长(lead)定义为承诺与起始之间的 token 数量。正的领先意味着模型的有限答案投影在答案言语化之前就已经做出了承诺。

我们在受控的延迟判决任务中研究这一框架。这些任务故意设计得简单:它们使起始检测可靠,允许精确的续写评分,并将答案承诺与模板进度分离开来。这种简单性是测量问题的一个特征,而非局限性。目标不是在全一般性下模拟开放式深思熟虑,而是为一个狭窄的对象构建一个干净的时钟:模型自身的有限答案续写偏好何时变得稳定。

这种框架也确定了本文的范围。我们不声称测量不受限制语义信念、证明书面推理不忠实,或识别决策形成的完整因果回路。相反,我们问一个可以精确回答的小问题:给定指定的答案言语化器,模型的诱导有限答案分布是否在任何答案可解析之前稳定下来,以及该状态级数量是如何表示的?图 1 总结了测量流程。核心方法论要点是承诺是在探针之前定义的:探针测试精确的有限答案目标是否可以从紧凑的状态摘要中恢复,但它并不定义该目标。

**图 1:作为状态级测量的有限答案承诺。** 给定自回归状态,我们使用模型自身的续写概率对有限答案言语化器进行评分,将这些分数投影到有限答案集合上,并获得二元承诺码 $\delta(\xi)$。在延迟判决轨迹中,解析器定义答案起始点,而承诺码定义承诺时间和领先步长。隐藏状态探针和因子分解实验是下游测试,用于检验该精确目标是否可恢复且独立于实现进度。

我们的结果展示了一致的图景。令人惊讶的事实不仅仅在于可以从隐藏状态预测最终答案;更在于模型自身的有限答案续写分布在任何答案 token 外部可解析之前就可以变得稳定。Qwen3-4B 的上下文有限答案投影在提示、言语化器和任务家族的变化下,都稳定在最终答案上。精确的承诺码可以从紧凑的隐藏状态摘要中线性恢复。然而,跨条件转移揭示了共享信息,但不存在单一的零样本不变线性坐标,这呼应了更广泛的证据,即线性可访问的模型信息可能在几何结构上存在但依赖于提示或分布(Marks and Tegmark, 2024)。承诺还可以通过经过控制的、转移的、自举测试和多种子评估验证的低维因子,在操作上与实现进度分离开来。最后,质量门控和因果敏感性诊断澄清了主张的范围:解析器干净的模板保留了正的领先但缩短了它,校准后的在线规则可以在未见过的轨迹中预测最终答案,而不等同于回溯定义,精确的激活转向局部地移动 $\delta$ 但不可靠地翻转生成的答案(Men et al., 2022; Geiger et al., 2021)。

## 2 相关工作

思维链提示表明,语言模型通常在最终答案之前书写中间推理过程往往能获益(Wei et al., 2022; Kojima et al., 2022; Wang et al., 2023b)。一个核心问题是这些理由是否忠实地反映了决定答案的计算(Turpin et al., 2023; Lanham et al., 2023)。最近的工作进一步表明,模型可能表现出潜在的表演性推理模式,其中内部的答案相关信息和可见的推理痕迹不一定同步演变(Boppana et al., 2026; Liu et al., 2026)。

我们的问题是互补且更狭窄的。我们不直接判断理由是否忠实;相反,我们测量模型的有限答案续写偏好相对于可见答案何时稳定。线性探针和表示分析测试内部状态是否编码任务变量(Alain and Bengio, 2017; Belinkov, 2022a; b; Hewitt et al., 2021; Ravfogel et al., 2020; Elazar et al., 2021)。关于潜在知识和自我知识的工作进一步区分了陈述的答案和内部可访问的信息(Burns et al., 2024; Azaria and Mitchell, 2023; Li et al., 2023; Kadavath et al., 2022; Marks and Tegmark, 2024)。相关的自我反思工作询问模型是否可以用言语表达或总结其内部答案分布(Kirchhof et al., 2026)。这些工作促使我们认识到答案相关信息在言语化之前存在的可能性。我们的区别在于目标不是由外部标签、自我报告或学习到的探针提供的:$\delta(\xi)$ 是由模型自身的条件分布诱导的精确续写评分投影。

关于提前正确性方向(in-advance correctness directions)的工作询问答案前的激活是否预测模型是否正确。我们的目标在三个方面不同。首先,$\delta(\xi)$ 是模型定义的而非标签定义的:它是基于答案言语化器的续写概率计算得出的。其次,它追踪模型的最终答案而非事实真相,这就是为什么错误的答案也可以被回溯性地承诺。第三,我们测量相对于解析器定义的答案起始点的轨迹级稳定时间,而不仅仅是询问答案前的激活是否包含监督的正确性信号。这些问题是互补的:正确性探针询问模型是否正确;有限答案承诺询问模型自身的答案偏好何时稳定。

Logit-lens 和 tuned-lens 方法揭示了 token 预测如何随层数演变(Belrose et al., 2025; Wang, 2025)。我们的方法问了一个类似但在时间上不同的问题。我们不是在单个位置或层读取原始下一个 token 分布,而是追踪自回归时间内的有限答案投影,并将其稳定点与解析器定义的答案起始点进行比较。简而言之,lens 方法询问 token 预测如何在一次前向传播内部演变;我们的测量询问模型的层级续写分布何时在生成轨迹上稳定。这将演变的预测转化为对承诺时间和领先步长的轨迹级测量。

基于提示的分类将语言模型关于言语化器的概率映射到有限标签(Schick and Schütze, 2021; Gao et al., 2021),校准工作表明此类映射可能依赖于提示和言语化器的选择(Zhao et al., 2021)。我们在时间角色上使用言语化器。在每个起始前的自回归状态,我们对答案言语化器进行边际化以获得有限答案分布。这使得测量的对象明确,同时也使其局限性明确:它是一个依赖于言语化器的投影,而不是无言语化器的语义信念。

机制可解释性和因果干预研究检查激活如何中介模型行为(Geshkovski et al., 2025; Olsson et al., 2022; Wang et al., 2023a; Men et al., 2022; Geiger et al., 2021)。我们的主要贡献位于完整回路解释的上游:我们定义了一个精确的状态级目标并测量其时间稳定性。我们包含一个小规模的精确评分干预试点,以测试该目标的局部因果敏感性,但我们不声称对最终答案生成具有因果控制力。

## 3 有限答案承诺

### 3.1 续写评分与有限答案投影

设 $\theta$ 为冻结的仅解码器语言模型。给定由前缀诱导的自回归状态 $\xi$ 和有限续写 $y=(y_1,...,y_T)$,定义精确续写评分 $S_\theta(y|\xi)=\sum_{t=1}^T \log p_\theta(y_t|\xi, y_{<t})$。

### 3.4 为什么贪婪采样是同义反复的

从同一贪婪轨迹上的中间状态进行的确定性贪婪采样会重现已生成的后缀。因此,贪婪路径上的恒定贪婪最终答案并不能显示早期承诺;它是确定性的结果。我们的承诺码通过测量每个起始前状态的加权概率有限答案投影来避免这种同义反复。附录 A 给出了完整证明。

## 4 延迟判决评估

### 4.1 任务与条件

我们使用 Qwen3-4B-Instruct-2507(Yang et al., 2025)在受控的延迟判决任务上评估该框架。U

相似文章

不归点:语言模型推理中欺骗承诺的反事实定位

arXiv cs.CL

引入反事实定位方法,用于识别语言模型在推理过程中何时对欺骗做出承诺。该方法使用五个环境,包含四个推理模型的146万句子语料库。研究表明,基于注意力的转换特征在不同环境中具有泛化能力,可用于检测欺骗承诺。

幻觉作为承诺失败:大型语言模型在知晓答案的情况下仍然犯错

arXiv cs.CL

本文研究了大型语言模型在其生成时间分布中已有正确答案时仍产生幻觉的现象。通过引入答案可用性的语义概念,作者表明16-47%的指令调优模型幻觉发生在正确概念已经表示的情况下,并且这一比例随着模型规模增加而上升。他们指出,指令调优强化了答案承诺,使得有用性和自信幻觉成为同一枚硬币的两面。

仅靠召回还不够:个性化语言系统中的承诺边界

arXiv cs.AI

提出了一种基于合约的有限证据激活(CBEA)与词典式承诺验证(LCV)方法,以防止个性化语言系统中出现运行时控制失败——系统在拥有相关上下文的情况下仍做出错误承诺。该方案在验证器范围内实现了零失败,可用性达到0.49–0.60,显著优于基线方法。