答案词元如何读取推理轨迹?思维大模型在定量推理中的自读模式

arXiv cs.CL 论文

摘要

研究发现,思维大模型中的答案词元在定量推理时遵循结构化自读模式——前向漂移+聚焦关键锚点,并据此提出免训练 SRQ 引导方法,无需微调即可提升准确率。

arXiv:2604.19149v1 公告类型:新 摘要:思维大模型在给出答案前会生成推理轨迹。此前的激活干预研究主要聚焦于塑造这些轨迹,而答案词元如何读取并整合推理以产生可靠结果仍不清楚。针对定量推理任务,我们分析答案对推理的注意力,发现与正确解相关的良性自读模式:阅读焦点沿推理轨迹向前漂移,并持续锁定关键语义锚点;错误解则呈现分散、不规则的注意力。我们将其解释为答案解码阶段的内部确定性:模型锁定可行解分支并整合关键证据。基于此,我们提出一种免训练的引导方法,利用自读质量(SRQ)评分,将几何指标(过程控制)与语义指标(内容监控)结合,筛选数据构建引导向量,在推理时促使模型走向良性自读,远离不确定与混乱阅读。实验表明,该方法可稳定提升准确率。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/22 08:30

# 答案 token 如何阅读推理痕迹?思维大模型在定量推理中的自读模式  
来源:https://arxiv.org/html/2604.19149  
陈浩洋† 刘毅† 邵建志‡ 张涛§ 霍成福‡ 胡伟†  
†南京大学软件新技术国家重点实验室 ‡阿里巴巴集团 §蚂蚁集团  
[email protected], [email protected], [email protected]  
[email protected], [email protected], [email protected]  

###### 摘要  
思维大模型在给出答案前会生成推理痕迹。现有激活干预研究主要聚焦于塑造这些痕迹,却鲜少探究答案 token 究竟如何阅读并整合推理信息以产生可靠结果。针对定量推理任务,我们分析“答案→推理”注意力,发现一种与正确性高度对齐的良性自读模式:阅读重心沿推理痕迹逐步前移,并持续聚焦于关键语义锚点;而错误解则呈现弥散、不规则的注意力分布。我们将此解读为答案解码阶段的内部确定性:模型已锁定可行解分支,并整合关键证据。据此,我们提出无训练干预方法——以自读质量(SRQ)评分为驱动,结合几何指标(过程控制)与语义指标(内容监控)筛选数据构建干预向量,引导推理朝向良性自读、远离混乱阅读。实验表明,该方法可稳定提升准确率。  

## 1 引言  
思维大模型(如 DeepSeek-R1、GPT-5、Gemini 3 系列)在定量推理上表现强劲,通常先输出一段推理痕迹,再给出最终答案。激活干预(activation steering)作为一种免训练手段,通过修改中间表征来控制模型行为,已广泛用于诚实性、指令遵循等对齐任务。近期研究将其用于压缩冗长推理、激发更长能力、校准可靠性等,但仍不清楚答案 token 究竟如何“阅读”推理痕迹。本文聚焦定量推理,分析答案阶段注意力,发现:  
1. 阅读重心随解码过程逐步前移;  
2. 持续聚焦于关键语义锚点(约束、解题计划、结论)。  
我们将这种良性自读视为内部确定性的行为签名,并据此提出 SRQ 驱动的免训练干预方法,引导模型远离混乱阅读。实验在多个思维大模型上取得最高 2.6% 的准确率提升。  

## 2 相关工作  
激活工程通过修改中间激活来 steering 输出。Turner 等人提出激活加法,用对比样本构建向量以控制情感、毒性等属性。Tang 等人基于强弱推理痕迹的激活差异定位关键神经元。Eshuijs 等人用 steering 向量生成更诚实的回答,帮助 LLM 裁判检测不诚实。Stolfo 等人通过指令有无差异向量让模型在提示不足时仍满足格式、长度等约束。  

在思维大模型中,Venhoff 等人提取 R1-Distill 的 steering 向量以控制示例验证与回溯;Azizi 等人提出 steered compression,将冗长推理压缩为简洁版本;Li 等人利用符号数学与自然语言生成之间的激活差提升逻辑性能;Sun 等人定位控制推理长度的方向并编辑注意力头投影权重。据我们所知,尚无工作分析或干预“答案 token 如何阅读推理痕迹”。  

## 3 思维大模型的自读行为  
我们在 GSM8K 定量推理任务上分析答案→推理注意力,选用 R1-Distill-Llama-8B、R1-Distill-Qwen-7B、Qwen3-4B-Thinking 三款模型,聚焦语义更丰富、更稳定的中后层。  

### 3.1 主要发现  
正确解在答案解码阶段呈现结构化自读:  
- **阅读重心前移**:答案 token 的注意力 centroid 从推理前段逐步移至后段,轨迹呈对角线趋势,表明模型沿逻辑流追踪有效解路径。  
- **语义锚点聚焦**:答案 token 反复聚焦关键语义锚点(约束、计划、反思、结论),在注意力热图中形成对角亮带与离散热斑,而非均匀分布。  

聚合 100 条正确解的注意力图后,对角脊状结构依然显著,证明该模式稳定且普遍。  

### 3.2 良性自读与正确性  
对 R1-Distill-Llama-8B 的 200 条解进行三人一致标注,分为四类:  
- CSR⁺:正确且呈现良性自读  
- CSR⁻:正确但无良性自读  
- ISR⁺:错误但呈现良性自读  
- ISR⁻:错误且无良性自读  

(后续实验表明 CSR⁺ 占比显著高于其他类别,进一步验证良性自读与正确性强相关。)

相似文章

Stratagem:通过轨迹调制博弈自博弈学习可迁移推理

Hugging Face Daily Papers

# 论文页面 - Stratagem:通过轨迹调制博弈自博弈学习可迁移推理 来源:[https://huggingface.co/papers/2604.17696](https://huggingface.co/papers/2604.17696) 作者:,,,,,,,,,, ## 摘要 STRATAGEM 通过引入推理可迁移性系数与演化奖励,鼓励抽象、跨领域模式而非博弈专用启发式,从而解决语言模型推理迁移受限的问题。博弈为开发通用推理能力提供了极具吸引力的范式。

使用评分奖励(Rubric Rewards)纠正LLM数学推理中的奇迹步骤

arXiv cs.CL

本文识别并解决了LLM数学推理中的‘奇迹步骤’问题——即无根据跳至正确答案的奖励篡改行为——通过提出评分奖励模型(RRM),一种面向过程的奖励函数,评估整个推理轨迹。RRM在AIME2024上实现了显著提升(Verified Pass@1024从26.7%提高至62.6%),并将奇迹步骤减少了71%。