努力是上限而非旋钮:推理预算不会调节人类与大推理模型之间的认知成本对齐
摘要
本文测试了改变推理时的推理努力是否会影响大推理模型思维链长度与人类反应时间之间的对齐。结果表明,对齐对于努力扰动具有不变性,表明这是一种训练时实现的成就。
arXiv:2605.16938v1 公告类型:新
摘要:大推理模型(LRMs)生成的思维链轨迹的长度在认知任务中与人类反应时间保持一致,但近期的辩论质疑这种对齐是否反映了真正的计算结构还是表面冗长。我们测试了这种对齐是否随推理时的推理努力而变化。在GPT-OSS-20B和GPT-OSS-120B上,三个努力水平和六个推理任务中,任务内和跨任务对齐保持不变:贝叶斯因子倾向于零假设,且不同条件下的平均对齐数值几乎相同。操控检查显示,努力参数设置了生成的上限预算,而非驱动实时分配,这表明分配策略在训练时已经固化。算术复杂度对比进一步表明,令牌分配跟踪了细粒度、依赖格式的人类难度模式,模型规模提高了匹配度。LRMs与人类之间的认知成本对齐似乎是训练时实现的成就,对推理时的扰动具有鲁棒性,支持LRM问题解决的编译而非在线解释。
查看缓存全文
缓存时间: 2026/05/19 06:36
# 推理预算不会调节人类与大型推理模型之间的认知成本对齐 来源:https://arxiv.org/html/2605.16938 岳清胡 \(scnu\.psy\.hyq@gmail\.com\) 王天鸿 安徽大学哲学学院,中国合肥 ###### 摘要 大型推理模型 \(LRMs\) 生成的思维链轨迹长度与人类在认知任务中的反应时间呈正相关,但最近的争论质疑这种对齐是否反映了真正的计算结构,还是仅仅是表面的冗长性。我们测试了这种对齐是否随推理时间推理努力的变化而变化。在 GPT-OSS-20B 和 GPT-OSS-120B、三个努力水平以及六个推理任务中,任务内和跨任务的对齐保持不变:贝叶斯因子倾向于零假设,且各条件下的平均对齐数值上几乎相同。一项操作检查显示,努力参数主要设置生成的上限预算,而非驱动实时分配,这表明分配策略在训练时已固化。进一步的算术复杂性对比显示,令牌分配追踪着细粒度、依赖格式的人类难度模式,且模型规模越大匹配度越高。LRMs 与人类之间的认知成本对齐似乎是训练时实现的特性,对推理时扰动具有鲁棒性,支持 LRM 问题解决的编译型而非在线型解释。 关键词:大型推理模型;思维链;推理努力;认知成本对齐;努力不变性;算术认知 ## 引言 认知科学的一个核心目标是确定人工系统是否不仅正确解决问题,而且通过类似于人类认知的过程来解决问题\[undefav (https://arxiv.org/html/2605.16938#biba.bibx19),undefag (https://arxiv.org/html/2605.16938#biba.bibx4)\]。大型推理模型 \(LRMs\) 的出现——这些神经网络通过带有可验证奖励的强化学习 \(RLVR\)\[undefaq (https://arxiv.org/html/2605.16938#biba.bibx14),undefaw (https://arxiv.org/html/2605.16938#biba.bibx20)\] 训练,在给出答案之前生成逐步的思维链 \(CoT\)\[undefaag (https://arxiv.org/html/2605.16938#biba.bibx30)\]——为测试这个问题开辟了新途径。\[undefaj (https://arxiv.org/html/2605.16938#biba.bibx7)\] 报告了一个惊人的趋同性:在七个认知需求不同的推理任务中,DeepSeek-R1 生成的 CoT 推理轨迹长度可靠地预测了人类的反应时间 \(RTs\),无论是在任务内 \(meanr ̄=0.57\bar{r}=0.57\) 还是跨任务 \(r=0.97r=0.97\)。这种模式在没有内建符号机制的情况下成立,表明目标导向优化可能隐式地恢复了人类问题解决复杂性的核心特征\[undefao (https://arxiv.org/html/2605.16938#biba.bibx12)\]。
这一发现引发了三条怀疑性的研究路线。\[undefaae (https://arxiv.org/html/2605.16938#biba.bibx28)\] 提出了一个因果方面的担忧,他们在 GPT-OSS-120B 中操纵推理努力,发现对六个任务中的五个准确率影响微乎其微,同时对于非常简单的问题(例如,“2+2=?2+2=\text{?}”)生成了冗长的轨迹;他们得出结论,令牌输出可能反映了学到的冗长模板,而非动态资源分配。\[undefat (https://arxiv.org/html/2605.16938#biba.bibx17)\] 提出了忠实度方面的担忧:令牌级别的轨迹可能作为表演性的脚手架,调节后续生成,而不忠实地代表底层计算\[undefaad (https://arxiv.org/html/2605.16938#biba.bibx27),undefaz (https://arxiv.org/html/2605.16938#biba.bibx23)\]。\[undefan (https://arxiv.org/html/2605.16938#biba.bibx11)\] 提出了机理方面的担忧,通过一个“鸟 vs. 汽车”的类比论证,两个系统之间的相关行为概况不能推断出共享的算法机制。在一系列回复中,\[undefam (https://arxiv.org/html/2605.16938#biba.bibx10),undefal (https://arxiv.org/html/2605.16938#biba.bibx9),undefak (https://arxiv.org/html/2605.16938#biba.bibx8)\] 捍卫了这种对齐是一个稳健的经验现象,处于理性层面而非算法层面,同时承认需要进一步的证据。
这些交流有一个关键局限性:所有六项贡献都将对齐视为一个二元属性(存在或不存在),而不是探讨它是否*随推理努力的变化而变化*。如果对齐真正反映了计算结构,它应该在努力条件下保持稳定,既不会在最小努力下崩溃,也不会在最大努力下膨胀。相反,如果观察到的相关性仅仅是捕捉了表面水平的冗长性,它们可能会被与人类认知无关的努力操纵选择性地破坏或增强\[undefay (https://arxiv.org/html/2605.16938#biba.bibx22)\]。来自推理蒸馏的平行证据强化了这个问题的重要性。\[undefau (https://arxiv.org/html/2605.16938#biba.bibx18)\] 证明了监督微调 \(SFT\) 蒸馏——部署高效 LRMs 的主要范式——会引发“功能对齐崩溃”:尽管蒸馏后的学生模型保留了扩展推理轨迹的*形式*,但它们与人类认知成本的对齐相对于其 RLVR 训练的教师模型显著下降(从 \(r ̄=0.64\bar{r}=0.64\) 到 \(r ̄=0.34\bar{r}=0.34\))。这表明类人的成本缩放是主动强化学习的一个涌现属性,对训练时扰动敏感。它是否同样对推理时扰动敏感,例如推理努力预算的变化,仍然未知。
本研究直接解决这个问题。我们评估了 GPT-OSS-20B 和 GPT-OSS-120B\[undefad (https://arxiv.org/html/2605.16938#biba.bibx1)\] 在三种推理努力条件(低、中、高)下,对来自\[undefaj (https://arxiv.org/html/2605.16938#biba.bibx7)\] 的六个推理任务(涵盖算术、形式逻辑、关系推理和直觉判断)的表现。我们形式化了两个实质性预测和一个零假设。**线性增强假设** \(H1\) 预测对齐随着努力增加而单调增加,理由是更大的推理时计算应该更忠实地反映人类认知的梯度难度结构。**最优努力假设** \(H2\) 预测一个倒 U 型模式,中等努力产生最大对齐,因为低努力导致思维不足,高努力导致思维过度,相对于人类认知规范\[undefaac (https://arxiv.org/html/2605.16938#biba.bibx26)\]。**努力不变性零假设** \(H3\) 预测对齐在努力条件下保持稳定,这将表明模型的分配策略在训练时固定,而非在推理时动态重新配置\[undefae (https://arxiv.org/html/2605.16938#biba.bibx2),undefax (https://arxiv.org/html/2605.16938#biba.bibx21)\]。为了进一步解决 Vankov 等人专门针对算术的挑战,我们进行了系统的复杂性对比分析,跨越算术难度的四个操作(操作类型、进位结构、操作数数量和数字位数),在每个努力设置下比较模型令牌概况与人类 RT 概况。
我们的结果汇聚于 H3:推理努力对 LRMs 和人类的对齐没有系统影响,并且存在的对齐在结构上是有意义的,追踪着与人类行为一致的细粒度复杂性操纵。
## 方法
### 数据集
请参考图注:
图 1:六个任务的示例推理问题。
我们使用了来自\[undefaj (https://arxiv.org/html/2605.16938#biba.bibx7)\] 改编的六个推理任务,涵盖不同的认知领域(见图 1)。原始任务集里的 H-ARC 任务被排除,因为最近的工作认为 ARC 任务根本上依赖于视觉空间先验而非语言推理\[undefas (https://arxiv.org/html/2605.16938#biba.bibx16)\]。完整的任务描述和人类行为数据在\[undefau (https://arxiv.org/html/2605.16938#biba.bibx18)\] 中报告;我们在此提供简要概述。
1. 1. **算术(数字与言语)**:168 个项目(每种格式 84 个),需要严格的算法计算,由 N=60 名参与者完成。
2. 2. **三段论**:32 个演绎逻辑问题,N=24。
3. 3. **逻辑-ALE**:以论证逻辑评估格式的 20 个一致性判断问题,N=84。
4. 4. **关系推理**:84 个传递推理项目,N=310。
5. 5. **直觉推理**:144 个因果判断小短文,N=58。
### 模型与推理努力
请参考图注:
图 2:GPT-OSS-120B(中等努力)生成的示例思维链。`<think>` 块包含推理轨迹,其令牌长度构成我们对推理成本的度量。
我们评估了 GPT-OSS 系列的两个开放权重 LRMs:GPT-OSS-20B 和 GPT-OSS-120B\[undefad (https://arxiv.org/html/2605.16938#biba.bibx1)\]。两个模型都支持一个显式的 `reasoning_effort` 参数,该参数调节分配给内部思维链的长度预算,有三个离散级别:`low`、`medium` 和 `high`。所有其他生成参数都固定(温度 T=0,贪婪解码)以确保确定性可重复性。代表性的输出如图 2 所示。
### 测量指标
对于每个问题 \(i\)、模型 \(m\) 和努力条件 \(e\),我们提取了:
- • **准确率 \(Acc_{m,e,i}\)**:二元正确性,通过真实值验证。
- • **推理成本 \(C_{m,e,i}\)**:`<think>` 分隔符内的令牌计数,作为推理时计算成本的代理。令牌计数是一个粗略的代理;更细粒度的度量,如每个令牌的计算量\[undefai (https://arxiv.org/html/2605.16938#biba.bibx6)\],可能更好地捕捉内在推理努力,但令牌计数仍是该文献中的标准度量,并能直接与\[undefaj (https://arxiv.org/html/2605.16938#biba.bibx7)\] 进行比较。
### 分析
#### 操作检查。
在解释任何对齐统计量之前,我们验证了 `reasoning_effort` 参数是否显著调节了生成轨迹的长度。对于每个(模型 × 任务)单元格,我们将努力诱导的令牌计数变化量化为高到低平均令牌计数的倍数变化,\(\Delta_{m,t} = \bar{C}_{m,\text{high},t} / \bar{C}_{m,\text{low},t}\),其中值接近 1 表示操作没有可靠地改变轨迹长度。这一步是必要的:如果努力未能调节轨迹长度,那么努力不变的对齐结果将是无意义的,因为它反映的是失败的操作而非真正的零假设。因此,我们报告操作检查统计量以及实质性分析,并根据操作是否对给定任务产生影响来分层解释不变性。
#### 任务内对齐。
对于每个模型 \(m\)、努力水平 \(e\) 和任务 \(t\) 的组合,我们计算了对数变换后的推理成本与对数变换后的人类 RT 之间的皮尔逊相关性:
\[
r_{m,e,t} = \text{Corr}\!\left(\log C_{m,e,t},\,\log RT_t\right)
\]
(1)
应用对数变换是因为令牌计数和 RT 都是正数、右偏的量,对于它们来说乘法关系比加法关系更自然。
#### 跨任务对齐。
我们聚合了任务级别的平均令牌计数和人类 RT,并为每个(模型 × 努力)条件计算了一个单一的跨任务皮尔逊相关性,以捕捉令牌使用在多大程度上镜像了跨任务类型认知需求的大差异。
#### 关于努力不变性的贝叶斯推断。
为了直接测试努力是否调节任务内对齐,我们对所有成对努力对比(低 vs. 中、中 vs. 高、低 vs. 高)的 Fisher z 变换后的 r 值(\(z = \text{arctanh}(r)\))进行了贝叶斯配对样本 t 检验。每个配对检验的样本量为 n=12(2 个模型 × 6 个任务),我们承认这不大;因此贝叶斯因子被解释为汇聚证据的一部分,而非决定性的。贝叶斯因子 \(BF_{10}\) 使用 Jeffreys-Zellner-Siow \(JZS\) 先验计算,规模参数 r=0.707\[undefaab (https://arxiv.org/html/2605.16938#biba.bibx25)\],并按照\[undefaaf (https://arxiv.org/html/2605.16938#biba.bibx29)\] 中的常规阈值解释:\(BF_{10} < 1/3\) 为支持零假设的中等证据,\(1/3 \leq BF_{10} \leq 3\) 为轶事性或不确定性的证据,\(BF_{10} > 3\) 为支持备择假设的中等证据。
#### 算术复杂性对比。
根据\[undefam (https://arxiv.org/html/2605.16938#biba.bibx10)\],我们测试了模型在四个任务内算术操纵上是否表现出与人类相同的难度缩放模式:操作类型(加法 vs. 减法)、进位结构(无进位 vs. 有进位)、操作数数量(2 vs. 3)以及数字位数(1 vs. 2)。这四个维度反映了人类认知文献中算术难度的既定来源\[undefaf (https://arxiv.org/html/2605.16938#biba.bibx3),undefah (https://arxiv.org/html/2605.16938#biba.bibx5)\]。对于每个对比,数字格式和言语格式分别分析,每个努力水平产生 16 个方向性预测。我们进行了韦尔奇 t 检验,比较每个对比中两个条件下的令牌计数,跨模型规模合并,并将方向一致性(所有 t<0,即更复杂的条件产生更多令牌)作为结构对齐的主要指标。
## 结果
### 操作检查:努力仅适度调节轨迹长度
我们首先验证了 `reasoning_effort` 参数是否显著调节了生成轨迹的长度。高到低平均令牌计数的倍数变化 \(\Delta_{m,t}\) 在大多数(模型 × 任务)单元格中都较小。对于算术(数字和言语)的两个模型,平均令牌计数在不同努力水平之间变化极小(\(\Delta \approx 1.0\);见图 3)。该操作在基线轨迹较长的任务(逻辑-ALE、关系推理)上产生了更大的绝对差异,但即使在那里,不同努力水平之间的变化相对于任务之间的数量级差异也较小。这与\[undefaae (https://arxiv.org/html/2605.16938#biba.bibx28)\] 的观察一致,即 `reasoning_effort` 参数只有有限的行为后果。我们将其解释为证据,表明该参数功能上更像是一个关于模型*可以*生成多少令牌的上限预算,而实际在项目间的分配主要由训练时策略决定。这个观察本身是有信息的,我们将在讨论中回到它的理论含义。对于下面的分析,我们相应地不期望努力引起大规模的对齐变化,而是询问任何残留的参数调节是否会产生系统性的变化。
### 努力不会破坏任务内对齐
请参考图注:
图 3:不同推理努力条件下的任务内对齐。每个面板显示了低、中、高努力下的平均推理令牌计数(紫色柱,上轴)和准确率(绿色柱,下轴),分别对应 (A) GPT-OSS-20B 和 (B) GPT-OSS-120B。皮尔逊 r 值(对数令牌 vs. 对数人类 RT)标注在每根柱子上。所有相关性均显著(\(p < .01\))相似文章
推理中的校准漂移:Chain-of-Thought 预算如何导致大型语言模型过度自信
本文识别了推理中的校准漂移(CDUR),即增加思维链推理预算会导致大型语言模型在错误答案上系统性地过度自信,并提出了一个假设锁定模型(Hypothesis Lock-In)和一个校准感知的停止规则(CABStop)来缓解该问题。
推理模型并非只是思考更久,其运作轨迹也不同
本文通过分析代码、数学和SAT领域中的隐藏状态轨迹几何特征,探究经推理训练的语言模型是否仅仅分配更多计算资源(更长的思维链),还是遵循了性质不同的内部轨迹。在纠正生成长度的影响后,他们发现经推理训练的模型展现出独特的轨迹几何特征——在代码领域最为明显——这表明推理训练改变了计算展开的方式,而不仅仅是计算量的多少。
人工理性的谜题:探究大型推理模型中的生成-评估差距
本文研究了大型推理模型(LRMs)中的生成-评估差距,发现尽管它们能近乎完美地生成解决方案,但由于答案确认偏差,它们无法稳健地评估推理过程。
量化推理模型自以为需要更长的思考,实则不然
本文揭示,对推理模型进行激进的训练后量化会导致过度思考错误增加,即模型在中间步骤得出正确答案却未能作为最终答案输出。对过度思考标记施加简单的logit惩罚,可将思维链长度减少12-23%,同时提升准确率,尤其对量化模型效果显著。
DyCon: 通过演化难度建模的动态推理控制
本文介绍了DyCon,一种无需训练的框架,利用步骤级嵌入来建模演化的任务难度,并动态控制大型推理模型(LRMs)的推理深度,有效减少过度思考,在不牺牲准确性的情况下提高效率。