答案词元如何读取推理轨迹？思维大模型在定量推理中的自读模式

arXiv cs.CL 2026/04/22 04:00 论文

摘要

研究发现，思维大模型中的答案词元在定量推理时遵循结构化自读模式——前向漂移+聚焦关键锚点，并据此提出免训练 SRQ 引导方法，无需微调即可提升准确率。

arXiv:2604.19149v1 公告类型：新摘要：思维大模型在给出答案前会生成推理轨迹。此前的激活干预研究主要聚焦于塑造这些轨迹，而答案词元如何读取并整合推理以产生可靠结果仍不清楚。针对定量推理任务，我们分析答案对推理的注意力，发现与正确解相关的良性自读模式：阅读焦点沿推理轨迹向前漂移，并持续锁定关键语义锚点；错误解则呈现分散、不规则的注意力。我们将其解释为答案解码阶段的内部确定性：模型锁定可行解分支并整合关键证据。基于此，我们提出一种免训练的引导方法，利用自读质量（SRQ）评分，将几何指标（过程控制）与语义指标（内容监控）结合，筛选数据构建引导向量，在推理时促使模型走向良性自读，远离不确定与混乱阅读。实验表明，该方法可稳定提升准确率。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/22 08:30

# 答案 token 如何阅读推理痕迹？思维大模型在定量推理中的自读模式  
来源：https://arxiv.org/html/2604.19149  
陈浩洋† 刘毅† 邵建志‡ 张涛§ 霍成福‡ 胡伟†  
†南京大学软件新技术国家重点实验室 ‡阿里巴巴集团 §蚂蚁集团  
[email protected], [email protected], [email protected]  
[email protected], [email protected], [email protected]  

###### 摘要  
思维大模型在给出答案前会生成推理痕迹。现有激活干预研究主要聚焦于塑造这些痕迹，却鲜少探究答案 token 究竟如何阅读并整合推理信息以产生可靠结果。针对定量推理任务，我们分析“答案→推理”注意力，发现一种与正确性高度对齐的良性自读模式：阅读重心沿推理痕迹逐步前移，并持续聚焦于关键语义锚点；而错误解则呈现弥散、不规则的注意力分布。我们将此解读为答案解码阶段的内部确定性：模型已锁定可行解分支，并整合关键证据。据此，我们提出无训练干预方法——以自读质量（SRQ）评分为驱动，结合几何指标（过程控制）与语义指标（内容监控）筛选数据构建干预向量，引导推理朝向良性自读、远离混乱阅读。实验表明，该方法可稳定提升准确率。  

## 1 引言  
思维大模型（如 DeepSeek-R1、GPT-5、Gemini 3 系列）在定量推理上表现强劲，通常先输出一段推理痕迹，再给出最终答案。激活干预（activation steering）作为一种免训练手段，通过修改中间表征来控制模型行为，已广泛用于诚实性、指令遵循等对齐任务。近期研究将其用于压缩冗长推理、激发更长能力、校准可靠性等，但仍不清楚答案 token 究竟如何“阅读”推理痕迹。本文聚焦定量推理，分析答案阶段注意力，发现：  
1. 阅读重心随解码过程逐步前移；  
2. 持续聚焦于关键语义锚点（约束、解题计划、结论）。  
我们将这种良性自读视为内部确定性的行为签名，并据此提出 SRQ 驱动的免训练干预方法，引导模型远离混乱阅读。实验在多个思维大模型上取得最高 2.6% 的准确率提升。  

## 2 相关工作  
激活工程通过修改中间激活来 steering 输出。Turner 等人提出激活加法，用对比样本构建向量以控制情感、毒性等属性。Tang 等人基于强弱推理痕迹的激活差异定位关键神经元。Eshuijs 等人用 steering 向量生成更诚实的回答，帮助 LLM 裁判检测不诚实。Stolfo 等人通过指令有无差异向量让模型在提示不足时仍满足格式、长度等约束。  

在思维大模型中，Venhoff 等人提取 R1-Distill 的 steering 向量以控制示例验证与回溯；Azizi 等人提出 steered compression，将冗长推理压缩为简洁版本；Li 等人利用符号数学与自然语言生成之间的激活差提升逻辑性能；Sun 等人定位控制推理长度的方向并编辑注意力头投影权重。据我们所知，尚无工作分析或干预“答案 token 如何阅读推理痕迹”。  

## 3 思维大模型的自读行为  
我们在 GSM8K 定量推理任务上分析答案→推理注意力，选用 R1-Distill-Llama-8B、R1-Distill-Qwen-7B、Qwen3-4B-Thinking 三款模型，聚焦语义更丰富、更稳定的中后层。  

### 3.1 主要发现  
正确解在答案解码阶段呈现结构化自读：  
- **阅读重心前移**：答案 token 的注意力 centroid 从推理前段逐步移至后段，轨迹呈对角线趋势，表明模型沿逻辑流追踪有效解路径。  
- **语义锚点聚焦**：答案 token 反复聚焦关键语义锚点（约束、计划、反思、结论），在注意力热图中形成对角亮带与离散热斑，而非均匀分布。  

聚合 100 条正确解的注意力图后，对角脊状结构依然显著，证明该模式稳定且普遍。  

### 3.2 良性自读与正确性  
对 R1-Distill-Llama-8B 的 200 条解进行三人一致标注，分为四类：  
- CSR⁺：正确且呈现良性自读  
- CSR⁻：正确但无良性自读  
- ISR⁺：错误但呈现良性自读  
- ISR⁻：错误且无良性自读  

（后续实验表明 CSR⁺ 占比显著高于其他类别，进一步验证良性自读与正确性强相关。）

答案词元如何读取推理轨迹？思维大模型在定量推理中的自读模式

相似文章

@stevibe：哪些大模型真的“热爱思考”？实测7款模型5道数学题，推理长度大比拼。思考冠军：bo…

从LLM推理轨迹中提取搜索树揭示了其规划中的短视现象

揭示大语言模型中的数学推理：内部机制的方法学研究

Stratagem：通过轨迹调制博弈自博弈学习可迁移推理

使用评分奖励（Rubric Rewards）纠正LLM数学推理中的奇迹步骤

提交意见反馈