读出捷径:位置数字复制主导小型语言模型中的算术CoT读出

arXiv cs.LG 论文

摘要

本文发现了一种‘位置复制’捷径:小型语言模型通过复制答案分隔符前的最后一个数字来回答算术问题,绕过了实际推理。该效应解释了为何打乱CoT步骤仍能保持性能;在GSM8K上,它占1-3B模型教师强制准确率的89-92%。

arXiv:2605.22870v1 公告类型:新 摘要:思维链(CoT)提示对于小型语言模型中的算术是必要的,但打乱其步骤仍能保持大部分性能。如果不是逻辑顺序,CoT贡献了什么?在三个1-3B指令微调的语言模型(GSM8K上)中,我们通过前缀补全隔离答案读取阶段,并发现了一个位置捷径:模型复制答案分隔符前最后一个位置的数字,无论中间推理如何。黄金答案的存在占准确率的54-92个百分点(每个模型教师强制上限的89-92%);即使在错误的项目上,最终答案匹配最后一个CoT数字的时间占95-96%。复制通道优先于保留上下文的补全:用错误值替换末尾数字会使准确率骤降至接近零,尽管中间步骤正确;但移除该数字可恢复5-32个百分点——即使模型原本可以执行的单步算术,在存在可复制数字时也被抑制。Qwen和Llama复制新干扰项的概率为87-95%;Gemma则选择性门控。头级消融实验牵涉到架构特定的头集;该效应在GSM-Symbolic上可复现。在非算术的BBH任务上,打乱保留性能急剧下降;在7-8B规模时,出现内容选择性门控。步骤级忠实度评估有风险将位置答案传输与真实计算混淆——这是基于CoT的监督的一种失败模式。
查看原文
查看缓存全文

缓存时间: 2026/05/25 08:55

# 读出捷径:位置数字复制主导小型语言模型中的算术思维链读出  
来源:https://arxiv.org/html/2605.22870  

###### 摘要  
思维链(CoT)提示对于小型语言模型进行算术运算是必要的,然而打乱其步骤仍能保留大部分性能。如果逻辑顺序不重要,那么CoT究竟贡献了什么?在三个1–3B指令微调语言模型(GSM8K数据集)上,我们通过前缀补全隔离答案读出阶段,并识别出一种位置捷径:模型会复制出现在答案分隔符之前末尾位置的任何数字,无论中间推理如何。正确答案的出现贡献了54–92个百分点的准确率(每个模型教师强制上限的89–92%);即使在错误项上,最终答案与最后一个CoT数字的匹配率也高达95–96%。复制通道优先于保留上下文补全:用错误数字替换末尾数字会使准确率降至接近零,尽管中间步骤正确;然而,移除该数字后,准确率可在此基线之上恢复5–32个百分点——即使是模型本可以执行的单步算术,在存在可复制数字时也会被抑制。Qwen和Llama在87–95%的情况下复制新颖干扰项;Gemma则有选择性地进行门控。头部级消融实验揭示了特定于架构的头部集合;该效应在GSM-Symbolic上可复现。在非算术BBH任务上,打乱后的性能急剧下降;在7–8B规模时,出现内容选择性门控。步骤级忠实性评估可能混淆位置性答案传输与真实计算——这是基于CoT的监控的一种失败模式。

## 1 引言

思维链(CoT)提示(Wei et al., 2022;Kojima et al., 2022)是必要的:移除它会严重降低准确率(Lanham et al., 2023)。然而,其步骤顺序几乎无关紧要:打乱步骤仍能保留大部分性能(Madaan and Yazdanbakhsh, 2022;Wang et al., 2023a)。这种矛盾已有充分记录但未得到解释——如果逻辑顺序不重要,CoT中究竟是什么驱动了答案?先前工作已证实CoT可能是不忠实的——Turpin等人(2023)表明,尽管推理步骤正确,偏向性的示范会改变答案;Lanham等人(2023)通过早期回答和释义指标量化了不忠实性;Arcuschin等人(2025)在自然场景中观察到了类似模式——并且填充标记可部分替代推理(Pfau et al., 2024);最近的机制研究已开始追踪CoT中的信息流(Dutta et al., 2024),并探究哪些推理步骤重要(Bogdan et al., 2025)。这些工作记录了读出可以绕过推理,但未说明读出使用了什么具体信号、它在网络中的何处操作,或者它是否主动抑制了可用的计算。我们提供了这三者。我们在1–3B指令微调模型上,针对算术运算识别出一种“答案上下文门控位置读出”(Geirhos et al., 2020;McCoy et al., 2019):模型会复制在答案相关上下文中出现在答案分隔符之前末尾位置的任何数字,基本独立于中间计算。该读出需要答案相关的框架(附录U),并且在Qwen/Llama中与正确性无关,但在Gemma中受内容门控(图1)。在三种架构上,我们展示了模型读取了什么、为什么打乱步骤能保留它(答案标记的位置可访问性在逻辑顺序失效时仍然存在),以及它在何处失效(非算术任务;7–8B时出现内容选择性检索)。对正确答案的依赖是稳健的;“内容门”——操作上定义为模型拒绝末尾位置的新颖干扰数字的程度,测量为1−P(干扰项)——从缺失(Qwen: 门≈0)到强(Gemma: 门≈0.85;7–8B模型: 门≥0.70;§7)。并发行为工作(Chen et al., 2026)证实了前沿规模模型的打乱容忍性;我们贡献了机制,这需要开放权重访问。这种刻画来源于三种架构(Qwen2.5-1.5B-Instruct, Llama-3.2-1B-Instruct, Gemma-2-2B-it)在GSM8K(Cobbe et al., 2021)上的四条汇聚证据链;Gemma完全参与了损坏分解、打乱层次和头部级消融,但其位置/干扰项结果使用了教师强制通过子集(附录T):(i) 损坏分解将正确答案的“存在”隔离为主导因素(原始54–92个百分点;天花板校正后89–92%),一个七条件因果阶梯显示复制通道优先于可用的保留上下文补全(§3);(ii) 读出选择末尾答案上下文数字,具有尖锐的最终位置跳跃(+20–31个百分点),并且在Qwen/Llama中具有新颖性允许复制(新颖数字为0.87–0.95)vs. Gemma中的选择性门控(0.12–0.19;§4);(iii) 头部级消融揭示了从局部化(Llama)到分布式(Qwen;§5)的特定于架构的轮廓;(iv) 该捷径存在于基础权重中,可在GSM-Symbolic上复现,在7–8B时转向选择性,并且在非算术BBH上失效(§6)。

#### 范围与忠实性。CoT使用涉及“理由生成”(可能进行计算)和“答案读出”(将已补全的前缀映射到最终标记);我们的前缀补全干预隔离了第二阶段。遵循Lanham等人(2023),当答案依赖于中间计算(Δ非复制)而非表面特征(Δ复制)时,我们认为读出的“忠实”的。我们未对生成时间计算做出断言——仅表明当末尾答案上下文数字可用时,读出并未忠实地使用它。这削弱了步骤级CoT监控器(Lightman et al., 2023;Chen et al., 2025;Korbak et al., 2025)的前提:读出优先于可用的保留上下文补全。

## 2 实验设置

#### 模型。Qwen2.5-1.5B-Instruct(Yang et al., 2024)(28L, 1536d, 12/2 GQA heads),Llama-3.2-1B-Instruct(Grattafiori et al., 2024)(16L, 2048d, 32/8 GQA heads),以及Gemma-2-2B-it(Riviere et al., 2024)(26L, 2304d, 8/4 GQA heads)。所有模型均使用分组查询注意力(GQA;Ainslie et al., 2023),具有每头oproj(注意力输出投影)列,支持每头消融。这三个模型跨越不同的分词器家族(Qwen/Llama使用BPE变体;Gemma使用SentencePiece unigram),因此收敛的发现不能归因于共享的数字子词分割。Gemma出现在核心实验中(损坏分解、打乱层次、头部级消融、基础模型探测);其位置/干扰项结果(§4)显示在前缀结构扰动下教师强制保真度降低(约60% vs. 损坏流水线上的约99%;附录T)。

#### 任务与协议。GSM8K测试集(Cobbe et al., 2021),前500个问题。基线贪婪CoT准确率:Qwen 67.0%,Llama 45.6%,Gemma 66.2%。所有实验使用教师强制前缀注入:将(可能修改过的)CoT作为助手回合的开头注入,使用原生聊天模板,追加“####”,然后模型贪婪地生成答案。这是因果CoT分析的标准协议,将读出与生成时间混淆因素隔离(Lanham et al., 2023)。¹Gemma-2-2B-it缺少原生系统提示支持;我们将系统消息前置到用户回合。

#### 统计方法。比例使用Wilson 95% CI(Wilson, 1927);配对对比使用McNemar精确检验(McNemar, 1947);在预先声明的确认性子家族内进行Holm–Bonferroni校正(Holm, 1979)(附录S)。辅助分析(归纳重叠、均值消融、激活补丁)为探索性的,使用未校正的p值。

#### 符号。Δ复制 = P_B − P_A,Δ非复制 = P_C − P_B,以及P(残差) = P_A 是“准确率贡献”(条件准确率之间的差异),加法分解P_C;我们使用Δ表示这些反事实对比,并保留P(·)表示在单个输出分布上测量的事件比例(P(干扰项),P(正确答案))。因果阶梯条件Drep/Dtrunc/Dblank定义于§3.3。

## 3 什么驱动了CoT读出?

在正确解决的项中,正确答案的存在贡献了54–92个百分点(每个模型TF上限的89–92%;§3.1);因果阶梯(§3.3)显示,正确的中间步骤携带潜在信号(比无CoT高4–29个百分点),但当末尾数字可用时该信号被掩盖。我们以基线正确的项为条件;自由生成诊断(§3.2)显示,即使错误答案也与最后一个CoT数字匹配,三种架构的匹配率为0.905–0.957。

### 3.1 隔离正确答案存在效应

从正确解决的问题开始(Qwen: n=335; Llama: n=228; Gemma: n=331),我们通过选择性破坏CoT前缀中的数字构建三个条件:A(全部破坏)替换所有数字包括正确答案出现;B(保留正确答案)破坏中间步骤但保留正确答案出现;C(干净)呈现原始CoT。破坏使用确定性按示例种子。²破坏保留正确答案值的项(主要是Gemma中的个位数正确答案)从条件A中排除(Qwen/Llama: 各5个;Gemma: 51个);包含它们得出所有情况下P_B − P_A ≥ 0.789。条件B和C使用完整样本。

表1:损坏分解(Qwen n=335, Llama n=228, Gemma n=331)。条件准确率的Wilson 95% CI(行A–C);项上配对bootstrap 95% CI用于导出差异(Δ复制, Δ非复制);P(残差)=P_A 直接使用条件A区间。正确答案存在占主导(原始54–92个百分点;天花板归一化后88–92%)。Gemma较低的原始Δ复制反映了在标准前缀格式下教师强制保真度降低(P_C=0.604),而非更弱的复制机制:天花板归一化后的复制强度在架构间收敛(底行)。Δ表示归因于每个组件的准确率(即条件准确率之间的差异),而非事件概率。

正确答案存在(Δ复制 = P_B − P_A)在三种架构上贡献了54–92个原始百分点(表1)。Gemma较低的原始值反映了其降低的TF保真度(P_C=0.604;标准前缀格式与Gemma的聊天模板交互)。天花板归一化后的复制强度(Δ复制 / P_C)收敛于88–92%,表明在每个模型可达上限附近运行着数量上相当的机制。中间步骤计算(Δ非复制 = P_C − P_B)对于Qwen/Llama处于噪声水平,对于Gemma适中。条件A和B仅在正确答案答案的存在上不同,干净地隔离了这一效应。复制是位置性的还是内容选择性的将在§4.1中测试。

### 3.2 上限外压力测试

为了为测量Δ非复制创造空间,我们替换为较弱的配置——Qwen-base, 0-shot(P_B=0.735, n=200)——具有26个百分点的空间,但Δ非复制=0.020(bootstrap 95% CI [−0.015, 0.060])。这比0.730的复制贡献低一个数量级。正确的中间步骤对读出的信息贡献几乎为零。

如果末尾数字对齐是前缀注入的伪影,那么它在无约束解码下应该消失。但事实并非如此(表2):在自由生成下(n=500),所有三个模型的最终答案与最后一个CoT数字的匹配率为96–97%。关键的是,在模型回答错误的项上,匹配率为0.905–0.957——在“先计算再写”的替代方案下,错误会分布在非末尾数字上,但它们却被锁定在末尾位置。以正确答案是否占据最后一个CoT位置为条件,揭示了一个近乎确定性的门:当正确答案在最后时准确率为0.991–0.997,否则为0.004–0.030。这种全分布分析证实了该捷径在模型答错的项上同样运作,独立于任何教师强制干预。

表2:自由生成分析(n=500,无约束贪婪解码,无前缀注入)。准确率几乎完全由正确答案是否占据最后一个CoT位置预测。即使在错误项上,答案反射性地匹配最后一个数字。

相似文章

推理模型并非只是思考更久,其运作轨迹也不同

arXiv cs.CL

本文通过分析代码、数学和SAT领域中的隐藏状态轨迹几何特征,探究经推理训练的语言模型是否仅仅分配更多计算资源(更长的思维链),还是遵循了性质不同的内部轨迹。在纠正生成长度的影响后,他们发现经推理训练的模型展现出独特的轨迹几何特征——在代码领域最为明显——这表明推理训练改变了计算展开的方式,而不仅仅是计算量的多少。

多样本思维链上下文学习:让上下文学习真正学会

Hugging Face Daily Papers

本文研究了推理任务的多样本思维链上下文学习,揭示了标准扩展规则并不适用,并提出了Curvilinear Demonstration Selection (CDS)方法以改进示例排序,最高可获得5.42个百分点的性能提升。