思考越多，偏见越大：推理模型中由长度驱动的位置偏见

arXiv cs.AI 2026/05/11 04:00 论文

reasoning-models position-bias chain-of-thought ai-evaluation deepseek-r1 large-language-models bias-auditing

摘要

本研究论文探讨了推理模型中的位置偏见，发现偏见并非随着“更多思考”而消除，而是与推理轨迹的长度成正比。该研究提供了因果证据，并提供了一套诊断工具包，用于审核多选问答评估中这种由长度驱动的偏见。

arXiv:2605.06672v1 公告类型：新论文摘要：人们通常认为，链式思考（CoT）推理以及 DeepSeek-R1 等经过推理微调的模型能够通过仔细思考来减少浅层启发式偏见。我们在多选问答（QA）的位置偏见上对此进行了测试，却得出了不同的结论：在任何具备推理能力的模型中，每道题的位置偏见均与推理轨迹的长度成比例增长。在 MMLU、ARC-Challenge 和 GPQA 数据集上，我们测试了十三种推理模式配置（包括两个蒸馏自 R1 的 7B-8B 模型、两个通过 CoT 提示的基础模型，以及 671B 参数的 DeepSeek-R1）。在控制准确率后，其中十二种配置显示出推理轨迹长度与位置偏见分数（PBS）之间存在正偏相关关系，相关系数介于 0.11 至 0.41 之间（所有 p < 0.05）。所有十二种开放权重的推理模式配置均显示出 PBS 随长度四分位数单调递增。截断干预提供了因果证据：从轨迹后期点恢复的续写越来越倾向于转向位置偏好的选项（对于 R1-Qwen-7B，在不同绝对位置桶中这一比例从 16% 升至 32%）。在 671B 参数规模下，总体 PBS 降至 0.019，但长度效应在最长四分位数中仍然显现（PBS = 0.071），这表明准确率抑制了由长度驱动的偏见的表现，而非消除了其底层机制。我们此外发现，直接回答的位置偏见是一种具有不同特征的现象（在 Llama-Instruct-direct 中较强，在 Qwen-Instruct-direct 中较弱，且与轨迹长度无关）：CoT 推理用这种随长度累积的偏见取代了基线偏见。我们的研究结果主张，在多选评估流程中不应默认将具备推理能力的模型视为对顺序鲁棒的，并提供了一套诊断工具包（包括 PBS、承诺变化点、有效切换、截断探针），用于审核推理模型中的位置偏见。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/11 07:04

# 推理模型中的长度驱动位置偏差 来源: https://arxiv.org/html/2605.06672 ## 思考越多，偏差越大：推理模型中的长度驱动位置偏差 ###### 摘要 思维链（CoT）推理和经过推理微调的模型（如 DeepSeek-R1）通常被认为通过仔细思考来减少浅层的启发式偏差。我们在多项选择题问答中测试了*位置偏差*，却发现情况截然不同：在任何具备推理能力的模型内部，每道题目的位置偏差与推理轨迹的长度成正比。在 MMLU、ARC-Challenge 和 GPQA 上，针对十三种推理模式配置（两个 R1 蒸馏的 7–8B 模型，两个使用 CoT 提示的基础模型，以及 671B 参数的 DeepSeek-R1），其中有十二种显示出控制准确率后的部分正相关关系 ρ(长度, PBS|准确率) = 0.11 至 0.41（所有 p < 0.05）。所有十二种开源权重推理模式配置均显示出 PBS 随长度四分位数单调递增；截断干预提供了因果证据，表明从轨迹后期点继续生成的内容越来越倾向于转向位置偏好选项（R1-Qwen-7B 从 16% → 32%）。在 671B 参数规模下，总体 PBS 降至 0.019，但长度效应在最长四分位数中仍然显现（PBS = 0.071），这表明准确率抑制了*长度驱动偏差的表达*，而非消除其底层机制。此外，我们发现*直接回答*的位置偏差是一种不同的现象，具有不同的特征（在 Llama-Instruct-direct 中较强，在 Qwen-Instruct-direct 中较弱，且与轨迹长度无关）：CoT 推理用*长度累积偏差*取代了这种*基线偏差*。我们的结果主张，在多选题评估流程中，不应默认将具备推理能力的模型视为对顺序鲁棒，并提供了一套诊断工具包（PBS、CCP、有效切换、截断探针）用于审计推理模型中的位置偏差。 ## 1 引言 经过推理微调的语言模型——OpenAI 的 o 系列、DeepSeek-R1（DeepSeek-AI et al., 2025 (https://arxiv.org/html/2605.06672#bib.bib2)）、Qwen 的 QwQ 系列（Qwen Team, 2024 (https://arxiv.org/html/2605.06672#bib.bib6)）及其蒸馏衍生版本——通常被宣传为“通过更长时间的思考来获得更好答案”的模型。这一叙述的一个自然推论是，延长的思考过程也应*减少*浅层的启发式偏差。多项选择题中的*位置偏差*就是这样一个典型的启发式偏差：无偏差模型的回答分布应对选项顺序保持不变，但先前的研究反复记录到 LLM 不成比例地选择特定位置的选项（Zheng et al., 2023 (https://arxiv.org/html/2605.06672#bib.bib10); Pezeshkpour and Hruschka, 2024 (https://arxiv.org/html/2605.06672#bib.bib5); Wang et al., 2024 (https://arxiv.org/html/2605.06672#bib.bib8)）。如果“更多思考”意味着“更少走捷径”，我们会期望推理模型比非推理对应模型*更少*受位置偏差影响。我们发现这种关系更为微妙，关键在于轨迹长度。在 MMLU、ARC-Challenge 和 GPQA 上匹配的推理微调模型与 Instruct 基础模型对中，两个现象尤为突出。 - • **在推理轨迹内部，位置偏差随长度缩放。** 控制准确率后，每道题目的位置偏差分数（PBS）与平均轨迹长度呈正相关，在测试的 13 种推理模式配置中有 12 种如此（ρ = 0.11–0.41，所有 p < 0.05）。将题目按长度分为四分位数显示，在所有 12 种开源权重推理模式配置中，PBS 从最短到最长四分位数*单调递增*。截断干预证实该效应是因果性的：从轨迹后期点恢复的延续越来越可能转向位置偏好选项（对于 R1-Qwen-7B，在绝对位置桶中从 16% 增加到 32%）。 - • **直接回答偏差是一种独立现象。** 在 Llama 配对中，Instruct-direct 表现出极端的基线位置偏差（在 MMLU/ARC/GPQA 上 PBS = 0.40/0.26/0.61），这与轨迹长度基本无关。CoT 推理*取代*了这种基线偏差，转为长度累积偏差：对于 Llama，CoT 降低了 PBS；而对于其 Instruct-direct 基线已经较轻的 Qwen，CoT 并未降低，但随后的长度延伸（R1）增加了它。因此，我们关于长度驱动的主张具体涉及推理轨迹，而非一般的位置偏差。为了跨规模验证长度机制，我们在 MMLU 上评估了 671B 参数的 DeepSeek-R1。总体 PBS 降至 0.019（从 7–8B 时的 0.21 下降），但长度四分位数模式依然存在：PBS 在前三个四分位数（短和中长轨迹）上基本为零，而在最长四分位数为 0.071。提交时间签名（CCP）基本上不受规模影响（0.73 vs 0.75）。我们将此解释为证据，表明*准确率抑制长度驱动偏差的表达*，而非消除底层机制。 #### 贡献。 - C1. **在推理轨迹内部，每道题目的 PBS 随长度缩放，控制准确率后依然成立。** 这在 R1 蒸馏、Instruct-CoT 和 API 规模推理模型上的三个 MCQ 基准上均成立。 - C2. **截断干预提供了因果证据：** 轨迹的后期截断产生更多位置偏好答案偏移，呈现出单调的*累积暴露*模式。 - C3. **671B 参数的跨规模验证**显示长度驱动机制在大规模下依然存在，而总体 PBS 受准确率调节。 - C4. **位置偏差的*双源*表征：** 基线偏差（直接模式，特定于基础模型，与长度无关）与长度驱动偏差（推理模式，普遍存在，与长度相关）截然不同；CoT 推理以前者取代后者。 - C5. **一套诊断工具包**（PBS、CCP、有效切换、截断探针）用于审计推理模型中的位置偏差，并发布代码和数据。 #### 为何重要。 具备推理能力的模型越来越多地被部署为裁判、评分器和决策支持系统，其中对顺序的鲁棒性是一个隐含要求。我们的结果表明，延长推理长度并非偏差的免费午餐：从业者不应假设较长的 CoT 输出比比短的输出*更具*顺序不变性。 ## 2 相关工作 #### LLM 评估中的位置偏差。 位置偏差已在不同规模、训练方案和提示格式中得到记录（Zheng et al., 2023 (https://arxiv.org/html/2605.06672#bib.bib10); Wang et al., 2024 (https://arxiv.org/html/2605.06672#bib.bib8); Pezeshkpour and Hruschka, 2024 (https://arxiv.org/html/2605.06672#bib.bib5)）。大多数提出的缓解措施将偏差视为模型的均匀属性（例如，通过选项排列平均），而不是轨迹依赖的现象。 #### 推理微调语言模型。 DeepSeek-R1（DeepSeek-AI et al., 2025 (https://arxiv.org/html/2605.06672#bib.bib2)）、o 系列和 QwQ（Qwen Team, 2024 (https://arxiv.org/html/2605.06672#bib.bib6)）经过训练以在最终答案之前产生扩展的内部推理。蒸馏变体（R1-Distill-Qwen, R1-Distill-Llama）（DeepSeek-AI et al., 2025 (https://arxiv.org/html/2605.06672#bib.bib2)）将这种行为转移到较小的基础模型。很少有工作审计推理风格训练如何改变从基础模型继承的*偏差画像*。 #### 思维链中的偏差放大。 Wu et al.（2025 (https://arxiv.org/html/2605.06672#bib.bib9)）表明，社交偏差在 BBQ 上的推理步骤中加剧：链早期有偏差的步骤往往被维持和放大，而不是被纠正。Luo et al.（2025 (https://arxiv.org/html/2605.06672#bib.bib4)）引入*社交偏差聚合*，记录了类似的逐步漂移并提出基于提示的缓解措施。 #### 我们的立场。 我们与 Wu et al.（2025 (https://arxiv.org/html/2605.06672#bib.bib9)）共享这样的观点，即偏差不是在输出层固定的，而是沿着推理轨迹积累的。我们在三个具体方面有所不同。首先，我们针对*位置*偏差，这是提示格式的结构属性，而不是基于问题内容的社交偏差。其次，我们使用*推理长度作为偏差幅度的连续预测因子*，跨越 15 种配置并报告部分相关系数，而不仅仅是每步漂移。第三，我们的*截断干预*直接操纵暴露长度，而不仅仅是观察它，为累积暴露机制提供了最清晰的证据。最后，我们区分了推理模式中的长度驱动偏差和直接模式中独立的*基线*偏差，这是先前作品中缺乏的区分。 ## 3 方法 ### 3.1 配对评估协议 我们构建匹配模型对，其中两个成员共享基础模型家族，从而将推理风格训练与基础模型身份隔离开来： - • **Qwen 对：** DeepSeek-R1-Distill-Qwen-7B ↔ Qwen2.5-7B-Instruct - • **Llama 对：** DeepSeek-R1-Distill-Llama-8B ↔ Llama-3.1-8B-Instruct - • **规模锚点：** DeepSeek-R1（671B，通过官方 API），仅针对 MMLU 对于每个 Instruct 模型，我们评估*直接*模式（仅回答）和*CoT*模式（“让我们一步一步思考”），从而将推理*风格*与推理微调*权重*分开。 ### 3.2 排列协议 对于每个问题，我们通过循环移位答案选项标签来构建四个变体。如果原始顺序为 (A,B,C,D)，正确答案位于位置 k，排列 s ∈ {0,1,2,3} 将正确答案置于位置 (k+s) mod 4。每个变体独立查询。 ### 3.3 指标 #### 位置偏差分数 (PBS)。 令 $\bar{\mathbf{p}}_q \in \Delta^4$ 为模型在问题 q 的四个排列上的回答平均经验分布，按*绝对答案位置*聚合。定义 $$ \textsc{PBS}(q) = \|\bar{\mathbf{p}}_q - \mathbf{u}\|_2, \quad (1) $$ 其中 $\mathbf{u} = (\frac{1}{4}, \frac{1}{4}, \frac{1}{4}, \frac{1}{4})$。 #### 提交变化点 (CCP)。 模型提取的答案首次匹配并随后保持与完整轨迹答案一致的归一化前缀分数： $$ \textsc{CCP} = \frac{1}{T} \min \{ t : a(t') = a(T) \; \forall t' \geq t \}. \quad (2) $$ #### 有效切换 (Eff-Sw)。 沿轨迹的答案变化次数归一化于轨迹长度，以使不同模型冗长程度的比较有意义。 ### 3.4 截断干预 对于每个可检测 CCP 的问题，我们在相对于 CCP 的偏移量 {-0.15, -0.05, +0.05, +0.15} 处截断轨迹，并从每个截断点独立恢复三次生成。我们记录 (a) 最终答案相对于原始答案是否*改变*，以及 (b) 转向哪个绝对位置。 ### 3.5 数据集 MMLU（Hendrycks et al., 2021 (https://arxiv.org/html/2605.06672#bib.bib3)）（1000 个问题，200 个用于 API 锚点），ARC-Challenge（Clark et al., 2018 (https://arxiv.org/html/2605.06672#bib.bib1)）（496 个问题），以及 GPQA（Rein et al., 2024 (https://arxiv.org/html/2605.06672#bib.bib7)）（198 个问题）。过滤后所有项目均为 4 选项 MCQ。 ## 4 实验设置 本地模型通过 llama-cpp-python 提供，在单个 NVIDIA A100-80G 上使用 Q4_K_M 量化。主要实验使用贪婪解码；截断延续使用核采样（p=0.95, T=0.7）。DeepSeek-R1 通过官方 API 访问，返回 reasoning_content + content，拼接为完整轨迹。提取使用带有字母频率回退的正则表达式级联；所有推理模式配置下的提取率超过 99%。 ## 5 结果 ### 5.1 长度四分位数 PBS：跨规模视图 我们以论文的中心实证模式开篇。对于每个推理模式模型-基准组合，我们将题目分为四个长度四分位数（Q1 = 最短 25% 轨迹，Q4 = 最长 25%）并计算每个四分位数的平均 PBS。图 1 (https://arxiv.org/html/2605.06672#S5.F1) 绘制了 R1-Qwen-7B、R1-Llama-8B 和 DeepSeek-R1（671B，仅 MMLU）的结果。 参见标题 **图 1：长度四分位数 PBS 跨规模单调。** R1-Qwen-7B 和 R1-Llama-8B 在 MMLU 上显示 PBS 从最短到最长长度四分位数增长 3–4 倍；类似模式在 ARC 和 GPQA 上也成立。在 671B 参数规模下（MMLU，绿色），PBS 在前三个四分位数上基本为零，在最长四分位数为 0.071，表明长度驱动机制在大规模下依然存在，但受问题难度门控。 对于两个开源权重 R1 蒸馏模型，效应显著：在 MMLU 上，R1-Qwen-7B 的 PBS 从 0.107 → 0.151 → 0.213 → 0.385（3.6 倍），R1-Llama-8B 从 0.091 → 0.187 → 0.235 → 0.358（3.9 倍）。在我们测试的 12 种开源权重（模型×基准）组合中，有 12 种保持单调性。 #### 跨规模锚点。 在 671B 参数下，MMLU 总体 PBS 降至 0.019，准确率升至 89.8%。前三个长度四分位数的 PBS 分别为 0.000/0.000/0.007；最长四分位数的 PBS = 0.071。我们将此解释为证据，表明在大规模下，正确答案信号足够强，主导了短到中轨迹上的累积位置拉力，但长度驱动机制仍在最困难、最长的题目上表达自身。提交时间签名基本上不受规模影响：671B 时 CCP = 0.73，7–8B 时为 0.75，表明 CCP 索引推理微调模型的结构属性，该属性不会随规模消失。 ### 5.2 每模型部分相关 接下来我们询问四分位数级别模式是否与长度和 PBS 之间的模型内连续关系一致。表 1 (https://arxiv.org/html/2605.06672#S5.T1) 报告了我们实验中所有推理模式和直接模式配置的控制准确率后的部分相关系数 ρ(长度, PBS|准确率)。 表 1：每道题目平均轨迹长度与 PBS 之间的部分相关系数，控制准确率。*: p < 0.05; **: p < 0.01; ***: p < 10^-3。 长度在推理模式中一致地预测 PBS（13 种配置中有 12 种在 p < 0.05 处显著）；该效应在直接模式中较弱或缺失（见 §5.4 (https://arxiv.org/html/2605.06672#S5.SS4)）。13 种推理模式配置中的 12 种表现出显著的正部分相关（ρ 在 0.11 和 0.41 之间，p < 0.05）；唯一的非显著例外（GPQA 上的 Qwen-Instruct-CoT，n=198）方向一致但功效不足。图 2 (https://arxiv.org/html/2605.06672#S5.F2) 可视化了四个本地 R1 蒸馏面板中每配置的关系。直接模式系数明显较弱，对于 Llama-Instruct-direct 基本为零；我们将在 §5.4 (https://arxiv.org/html/2605.06672#S5.SS4) 中回归此话题。 参见标题 **图 2：四个本地 R1 蒸馏面板中长度–PBS 关系的每配置视图。** 点为四分位数均值及标准误棒；虚线为四分位数中心的线性拟合。部分 ρ（控制准

思考越多，偏见越大：推理模型中由长度驱动的位置偏见

相似文章

出于必要性的偏差：收敛式人工智能与人类验证中顺序处理的不可能性定理

大规模推理模型（尚）不是多语言潜在推理器

推理模型难以控制其思维链，但这其实是好事

答案词元如何读取推理轨迹？思维大模型在定量推理中的自读模式

风险链条：大型推理模型中的安全失效及通过自适应多原则引导进行缓解

提交意见反馈