答案词元如何读取推理轨迹?思维大模型在定量推理中的自读模式
摘要
研究发现,思维大模型中的答案词元在定量推理时遵循结构化自读模式——前向漂移+聚焦关键锚点,并据此提出免训练 SRQ 引导方法,无需微调即可提升准确率。
查看缓存全文
缓存时间: 2026/04/22 08:30
# 答案 token 如何阅读推理痕迹?思维大模型在定量推理中的自读模式 来源:https://arxiv.org/html/2604.19149 陈浩洋† 刘毅† 邵建志‡ 张涛§ 霍成福‡ 胡伟† †南京大学软件新技术国家重点实验室 ‡阿里巴巴集团 §蚂蚁集团 [email protected], [email protected], [email protected] [email protected], [email protected], [email protected] ###### 摘要 思维大模型在给出答案前会生成推理痕迹。现有激活干预研究主要聚焦于塑造这些痕迹,却鲜少探究答案 token 究竟如何阅读并整合推理信息以产生可靠结果。针对定量推理任务,我们分析“答案→推理”注意力,发现一种与正确性高度对齐的良性自读模式:阅读重心沿推理痕迹逐步前移,并持续聚焦于关键语义锚点;而错误解则呈现弥散、不规则的注意力分布。我们将此解读为答案解码阶段的内部确定性:模型已锁定可行解分支,并整合关键证据。据此,我们提出无训练干预方法——以自读质量(SRQ)评分为驱动,结合几何指标(过程控制)与语义指标(内容监控)筛选数据构建干预向量,引导推理朝向良性自读、远离混乱阅读。实验表明,该方法可稳定提升准确率。 ## 1 引言 思维大模型(如 DeepSeek-R1、GPT-5、Gemini 3 系列)在定量推理上表现强劲,通常先输出一段推理痕迹,再给出最终答案。激活干预(activation steering)作为一种免训练手段,通过修改中间表征来控制模型行为,已广泛用于诚实性、指令遵循等对齐任务。近期研究将其用于压缩冗长推理、激发更长能力、校准可靠性等,但仍不清楚答案 token 究竟如何“阅读”推理痕迹。本文聚焦定量推理,分析答案阶段注意力,发现: 1. 阅读重心随解码过程逐步前移; 2. 持续聚焦于关键语义锚点(约束、解题计划、结论)。 我们将这种良性自读视为内部确定性的行为签名,并据此提出 SRQ 驱动的免训练干预方法,引导模型远离混乱阅读。实验在多个思维大模型上取得最高 2.6% 的准确率提升。 ## 2 相关工作 激活工程通过修改中间激活来 steering 输出。Turner 等人提出激活加法,用对比样本构建向量以控制情感、毒性等属性。Tang 等人基于强弱推理痕迹的激活差异定位关键神经元。Eshuijs 等人用 steering 向量生成更诚实的回答,帮助 LLM 裁判检测不诚实。Stolfo 等人通过指令有无差异向量让模型在提示不足时仍满足格式、长度等约束。 在思维大模型中,Venhoff 等人提取 R1-Distill 的 steering 向量以控制示例验证与回溯;Azizi 等人提出 steered compression,将冗长推理压缩为简洁版本;Li 等人利用符号数学与自然语言生成之间的激活差提升逻辑性能;Sun 等人定位控制推理长度的方向并编辑注意力头投影权重。据我们所知,尚无工作分析或干预“答案 token 如何阅读推理痕迹”。 ## 3 思维大模型的自读行为 我们在 GSM8K 定量推理任务上分析答案→推理注意力,选用 R1-Distill-Llama-8B、R1-Distill-Qwen-7B、Qwen3-4B-Thinking 三款模型,聚焦语义更丰富、更稳定的中后层。 ### 3.1 主要发现 正确解在答案解码阶段呈现结构化自读: - **阅读重心前移**:答案 token 的注意力 centroid 从推理前段逐步移至后段,轨迹呈对角线趋势,表明模型沿逻辑流追踪有效解路径。 - **语义锚点聚焦**:答案 token 反复聚焦关键语义锚点(约束、计划、反思、结论),在注意力热图中形成对角亮带与离散热斑,而非均匀分布。 聚合 100 条正确解的注意力图后,对角脊状结构依然显著,证明该模式稳定且普遍。 ### 3.2 良性自读与正确性 对 R1-Distill-Llama-8B 的 200 条解进行三人一致标注,分为四类: - CSR⁺:正确且呈现良性自读 - CSR⁻:正确但无良性自读 - ISR⁺:错误但呈现良性自读 - ISR⁻:错误且无良性自读 (后续实验表明 CSR⁺ 占比显著高于其他类别,进一步验证良性自读与正确性强相关。)
相似文章
@stevibe:哪些大模型真的“热爱思考”?实测7款模型5道数学题,推理长度大比拼。思考冠军:bo…
7款大模型在5道数学题上的基准测试;Qwen3.5 27B与35B A3B生成最长推理链,每题超10k tokens。
从LLM推理轨迹中提取搜索树揭示了其规划中的短视现象
本研究分析了大语言模型(LLM)在“四子连珠”游戏中的推理轨迹,发现LLM表现出短视规划特征:其表现主要取决于浅层的搜索广度,而非深层的预判能力,这与人类专家的规划方式截然不同。
揭示大语言模型中的数学推理:内部机制的方法学研究
本文通过早期解码分析大语言模型的内部机制,研究其如何执行算术运算。研究发现,能力强的模型在推理任务中,注意力模块和 MLP 模块之间呈现明确的分工。
Stratagem:通过轨迹调制博弈自博弈学习可迁移推理
# 论文页面 - Stratagem:通过轨迹调制博弈自博弈学习可迁移推理 来源:[https://huggingface.co/papers/2604.17696](https://huggingface.co/papers/2604.17696) 作者:,,,,,,,,,, ## 摘要 STRATAGEM 通过引入推理可迁移性系数与演化奖励,鼓励抽象、跨领域模式而非博弈专用启发式,从而解决语言模型推理迁移受限的问题。博弈为开发通用推理能力提供了极具吸引力的范式。
使用评分奖励(Rubric Rewards)纠正LLM数学推理中的奇迹步骤
本文识别并解决了LLM数学推理中的‘奇迹步骤’问题——即无根据跳至正确答案的奖励篡改行为——通过提出评分奖励模型(RRM),一种面向过程的奖励函数,评估整个推理轨迹。RRM在AIME2024上实现了显著提升(Verified Pass@1024从26.7%提高至62.6%),并将奇迹步骤减少了71%。