量化推理模型自以为需要更长的思考,实则不然

arXiv cs.LG 论文

摘要

本文揭示,对推理模型进行激进的训练后量化会导致过度思考错误增加,即模型在中间步骤得出正确答案却未能作为最终答案输出。对过度思考标记施加简单的logit惩罚,可将思维链长度减少12-23%,同时提升准确率,尤其对量化模型效果显著。

arXiv:2606.00206v1 公告类型:新论文 摘要:训练后量化(PTQ)被广泛用于高效部署大语言模型,但其对推理模型的影响尚不明确。在数学、编程和科学问答任务中,我们发现激进的PTQ降低了准确率,同时增加了思维链(CoT)长度。令人惊讶的是,我们发现在多达52%的量化模型失败案例中,模型在中间推理步骤中得出了正确答案,但并未将其作为最终答案输出。为了理解量化为何会导致这种过度思考错误的增加,我们测量了量化模型与全精度模型输出分布之间的token级KL散度。高KL散度的位置与高下一token熵强相关,在这些位置上,量化模型不成比例地采样了诸如“wait”、“but”和“alternatively”等过度思考标记。我们表明,仅对精心挑选的过度思考标记集合引入无需训练的logit惩罚,即可将CoT长度减少12-23%,同时保持或提高5个模型(1.5B-32B参数)、3种量化方法和5个基准测试上的准确率,与惩罚其他标记集合相比,实现了准确率与推理成本之间更优的帕累托前沿。量化模型产生的过度思考错误尤其减少了高达58%。
查看原文
查看缓存全文

缓存时间: 2026/06/02 15:40

# 量化推理模型认为自己需要思考更久,但实际情况并非如此  
来源:https://arxiv.org/html/2606.00206  
[1] Meta FAIR,[2] Meta AI(2026年5月29日)  

###### 摘要  
后训练量化(PTQ)被广泛用于高效部署大型语言模型,但其对推理模型的影响尚未得到充分理解。在数学、编程和科学问答任务中,我们发现激进的PTQ会降低准确率,同时增加思维链(CoT)长度。令人惊讶的是,我们表明:在多达 52% 的量化模型失败案例中,模型在中间推理步骤中得到了正确结果,但最终并未将其作为最终答案输出。为了理解量化为何导致这种过度思考错误的增加,我们测量了量化和全精度输出分布之间 token 级别的 KL 散度。高 KL 散度的位置与高下一 token 熵强相关,在这些位置上,量化模型不成比例地采样了“wait”、“but”和“alternatively”等过度思考标记。我们证明,只需对一组精心挑选的过度思考标记引入一个免训练的对数几率惩罚,即可在 5 个模型(1.5B–32B 参数)、3 种量化方法和 5 个基准上,将 CoT 长度减少 12–23%,同时保持或提升准确率,与惩罚其他 token 集相比,在准确率与推理成本之间产生了更优的帕累托前沿。量化模型产生的过度思考错误尤其减少了多达 58%。  

参阅图 1:量化加剧了推理模型中的过度思考。(左):即使量化推理模型在中间步骤得到了正确答案,它们也会自我怀疑,打开过多新的推理分支,最终未能产出最终回答。(中):我们对开启新推理分支的思考标记(即“but”或“wait”)施加对数几率惩罚。(右):我们表明,过度思考惩罚在模型、数据集和量化方法上,平均而言能显著提高效率(推理长度),同时保持或提升准确率。  

## 1 引言  
后训练量化(PTQ)是一种广泛采用的高效部署大型语言模型的范式(lin2024awq;frantar2022gptq;xiao2023smoothquant;yao2022zeroquant):它不需要梯度更新,不需要访问训练流程,并且可以用有限的校准数据应用。当量化推理模型无法解决问题时,自然的假设是量化侵蚀了模型的能力,模型只是无法再找到正确答案。在这项工作中,我们发现在多达 52% 的失败案例中,量化模型确实在某个中间推理步骤产生了正确答案,但随后又放弃了它。模型非但没有坚持一个正确的结论,反而开启了新的推理分支,质疑自己的假设,并陷入冗余的深思中,从而取代了它已经找到的答案。量化推理模型的失败并非因为它们无法思考;它们失败是因为它们无法*停止*思考。  

这种失败模式,我们称之为**过度思考**,在后训练量化(PTQ)推理模型中成为一种一致的模式。虽然全精度模型中也存在过度思考错误,但量化显著放大了它们的频率:在 AWQ 3-bit 下,过度思考占错误的 52%,而在 BF16 下为 26%,过度思考的绝对数量增加了 7.3 倍。基于这一差距,我们以全精度模型为参考,在相同生成前缀下分析量化和全精度输出分布之间 token 级别的 KL 散度,以隔离量化的影响。出现了两个关键发现:(1)量化与全精度模型之间平均 KL 散度最高的 token 包含过度思考标记,如“Wait,”、“But,”和“Alternatively”。KL 散度最低的 token 是数学和格式标记,它们编码了推理的计算内容。位置级别的 KL 散度也与全精度模型的下一个 token 熵强相关,证实了量化对模型已经不确定的位置影响最大。(2)过度思考标记集中在高熵解码位置,因为它们出现在高熵步骤前 20 个预测中的频率是低熵步骤的 2–4 倍。由于这些位置本身不确定,量化噪声对输出分布的影响更大,进一步增加了采样此类 token 的可能性。这反过来触发了虚假的推理分支,覆盖了正确的中间答案并延迟了终止。  

为了验证这一诊断,我们应用了一个简单的免训练干预:在每个解码步骤中,对一个精心挑选的 token 集 \(S\) 施加固定的对数几率惩罚。该惩罚引入零计算开销,且只有一个超参数,但具有高度针对性。所选 token 对应于过度思考标记,它们与高 KL 散度、高熵位置强相关,并且在词汇上对应于犹豫和回溯。在所有配置中,该惩罚平均一致地将 CoT 长度减少 12–23%。准确率得以保持,甚至经常提高,反映了过度思考错误的减少。在少数情况下准确率略有下降,但 CoT 长度仍显著减少,在效率–性能帕累托前沿上产生了有利的转变。受控消融进一步突显了干预的特异性:惩罚随机选择的 token 不会产生一致效果,而惩罚 KL 散度最低的 token 会导致灾难性退化,CoT 长度增加多达 41%,准确率下降多达 9.5%。这种特异性反映了量化如何通过在高不确定性位置精确放大路径分叉 token 来退化推理,而这些位置正是最有可能导致重复分支的地方。  

我们的贡献如下:  
1. 我们表明 PTQ 加剧了推理模型中的过度思考。在激进量化下多达 52% 的失败中,模型在中间步骤得到了正确答案,但未能坚持输出它。  
2. 通过量化和全精度输出分布之间的 KL 散度分析,我们识别出哪些 token 驱动了这种失败。在散度最高的 token 中,有集中出现在高熵位置的犹豫和分支 token。散度最低的 token 是携带推理计算内容的数学 token。  
3. 我们用一组过度思考标记上的免训练对数几率惩罚验证了该诊断。该惩罚平均一致地将 CoT 长度减少 12–23%,同时保持或提升准确率。受控消融证实,惩罚过度思考标记在准确率与推理成本之间产生了最有利的帕累托前沿。  

## 2 相关工作  
**LLM 的后训练量化。** 后训练量化可以在保持困惑度和下游性能的同时大幅减少模型占用空间。早期工作通过异常感知混合精度策略展示了大型 transformer 模型的鲁棒 8-bit 推理(dettmers2022gpt3)。最近的 PTQ 方法针对 transformer 块的 4-bit 和 3-bit 权重,包括 GPTQ(frantar2022gptq),它使用损失景观的二阶近似逐层量化以纠正量化误差;以及 AWQ(lin2024awq),它通过使用校准数据的激活统计识别并保留重要的权重通道来减少量化失真。其他方法将量化困难从激活转移到权重,如 SmoothQuant(xiao2023smoothquant),或优化以减少量化和反量化开销,如 ZeroQuant(yao2022zeroquant)。除此以外,最近的几项工作通过迭代误差校正改进了低位 PTQ。QuIP 和 QuIP# 提出了原则性的低位量化目标,以在 2–4 位下保持准确率(chee2023quip;tseng2024quip)。基于旋转的方法减少异常值并改善量化,包括 QuaRot(ashkboos2024quarot)和 SpinQuant(liu2024spinquant)。FlatQuant 使用包括旋转和每通道缩放在内的最优仿射变换增强了权重和激活的平坦性(sun2024flatquant)。在我们的实验中,我们重点使用 AWQ 和 GPTQ 进行 3-bit 和 4-bit 仅权重量化,以及使用 FlatQuant 在 W4A4KV4 和 W8A8KV8 配置下进行权重、激活和 KV 缓存的端到端量化。  

**高效推理。** 推理模型中的过度思考现在是一个被充分记录的现象。chen2024not 首次量化了 o1 类 LLM 中的过度思考,表明模型在简单问题上系统性地过度分配计算,并提出了自训练策略,在不牺牲准确率的情况下将 token 使用量减少了近 45%。pipis2025wait 将重复循环识别为一种失败模式,尤其是在较小和蒸馏模型中。su2025between 表明推理长度与正确性之间的关系是非单调的:更长的轨迹并不总是带来更好的答案。缓解方法涵盖从微调模型使其在生成冗余步骤前自我刹车(zhao2025let),到动态提前退出(yang2025dynamic),以及在多个样本中偏好最短的正确链(hassid2025don)。我们参考 sui2025stop 的综述。我们的方法不同之处在于专注于理解量化如何恶化这种过度思考行为,以及如何在不进行任何训练的情况下缓解它,因为 PTQ 本身是免训练的。  

**量化对推理的影响。** 近期工作表明,量化的效果依赖于指标和任务,压缩可以在保持整体性能的同时不成比例地降低更难示例和能力(hooker2020characterising;lotfi2024unlocking;hua2026uncertainty)。几项近期研究报告推理模型在低位 PTQ 下急剧退化,表现为准确率下降和思维链长度增加(liu2025quantization;mekala2025does;li2025quantization)。我们的工作与这一新兴线索一致,但侧重点不同。我们不仅基准测试 PTQ 下的准确率,还研究量化如何在 token 级别改变推理轨迹,识别出过度思考错误的增加,并引入一种免训练干预来解决它。  

## 3 实验设置  
**量化方法。** 我们在两种设置下评估后训练量化。对于仅权重量化,我们使用 GPTQ(frantar2022gptq)和 AWQ(lin2024awq),精度为 3-bit 和 4-bit,组大小为 \(g=128\)。GPTQ 使用二阶信息进行逐层量化以最小化输出重建误差。AWQ 使用校准激活统计识别显著权重通道,并应用每通道重新缩放以减少量化失真。对于权重、激活和 KV 缓存的端到端量化,我们使用 FlatQuant(sun2024flatquant)在 W4A4KV4 和 W8A8KV8 配置下。我们使用符号 WbAcKVd 表示 b-bit 权重、c-bit 激活和 d-bit KV 缓存。更多细节在 第8节 (https://arxiv.org/html/2606.00206#S8) 中提供。  

**模型。** 我们评估了五个推理专用的 LLM,参数范围从 1.5B 到 32B。来自 DeepSeek-R1-Distill 系列,我们使用 DeepSeek-R1-Distill-Qwen 1.5B、7B 和 14B,以及 DeepSeek-R1-Distill-Llama 8B。这些模型分别从 DeepSeek-R1 蒸馏到 Qwen-2.5 和 Llama-3.1 架构(Yang2024Qwen25TR)。我们还评估了 QwQ-32B(team2025qwq),它通过基于可验证奖励的强化学习获得推理能力,而非蒸馏。  

**基准测试。** 我们在五个涵盖数学、编程和科学的基准上进行评估。对于数学,我们使用 GSM8K(cobbe2021training)用于较短的算术链,MATH-500(hendrycks2021measuring)用于竞赛风格的多步骤问题,以及 AIME-120(由 AIME-90¹ 和 AIME-2025(dekoninck2026matharena)组成)作为更难子集,倾向于诱导更长的推理轨迹。对于编程,我们使用 LiveCodeBench(jain2024livecodebench)。对于科学,我们使用 GPQA-Diamond(rein2024gpqa)。所有实验使用默认解码,\(T=0.6\) 和 top-\(p=0.95\),遵循先前推理模型量化工作使用的设置(liu2025quantization)。  

参阅图  
(a) PTQ 下准确率下降  
参阅图  
(b) PTQ 下 CoT 长度增加  
图 2:量化推理模型在获得更低准确率的同时产生更长的思维链。我们评估全精度(BF16)以及量化后的 DeepSeek-R1-Distill-Qwen-1.5B 在 MATH-500、GPQA-Diamond 和 LiveCodeBench 上的表现。(a) 随着量化变得更激进,准确率下降,3-bit AWQ 使 MATH-500 准确率从 85.6% 降至 47.0%。(b) 在激进量化下 CoT 长度显著增加:3-bit AWQ 使 MATH-500 的 CoT 从 5.2K 增加到 23.4K token,增加了 4.5 倍。所有五个模型的结果在 第9节 (https://arxiv.org/html/2606.00206#S9) 中。  

## 4 量化加剧推理模型中的过度思考  

### 4.1 PTQ 下准确率下降而 CoT 长度增加  
首先,我们研究 PTQ 如何影响推理任务上的准确率和 CoT 长度。图 2 (https://arxiv.org/html/2606.00206#S3.F2) 显示了逐渐更激进的量化对 DeepSeek-R1-Distill-Qwen-1.5B 在三个基准上的影响。温和量化(FlatQuant W8A8KV8 以及 4-bit 仅权重的 AWQ 和 GPTQ)基本保持准确率,CoT 长度接近 BF16 基线。随着精度进一步降低,准确率和推理效率同时退化。在 MATH-500 上,3-bit AWQ 将准确率从 85.6% 降至 47.0%,同时将平均 CoT 从 5.2K 增加到 23.4K token,增加了 4.5 倍。在相同数据集上,3-bit GPTQ 更为鲁棒,保留了 71.6% 的准确率,CoT 为 6.8K token,但仍比 BF16 产生长 32% 的推理轨迹。量化权重、激活和 KV 缓存的 FlatQuant W4A4KV4 介于两者之间:准确率降至 66.4%,CoT 增至 8.0K token。我们在另外四个模型(Qwen-7B、Qwen-14B、Llama-8B、QwQ-32B)上观察到相同模式,并在 第9节 (https://arxiv.org/html/2606.00206#S9) 中报告完整结果。激进量化(3-bit 仅权重和 W4A4KV4)一致地导致更长的推理轨迹,该效应在较小模型和更难基准上最为显著。在 LiveCodeBench 上,3-bit AWQ 将 Qwen-1.5B 的 CoT 从 19.1K 增加到 38.8K token,同时准确率从 17.5% 降至 4.5%。较大模型更具韧性:Qwen-14B 在 3-bit AWQ 下仅损失 4.0% 的平均准确率,其 CoT 增加相比之下适中。我们计算了所有 28 个模型-量化对的准确率下降与 CoT 长度增加之间的斯皮尔曼相关系数 \(\rho\),发现 \(\rho = -0.73\)。换句话说,准确率损失最大的量化模型往往也产生最长的推理轨迹。鉴于这种强相关性,我们假设量化引起的额外推理不仅仅是准确率下降的伴随效应,而且更长的思维链主动导致了性能退化。我们接下来研究这一假设。  

参阅图  
(a) BF16  
参阅图  
(b) 3-bit AWQ  
参阅图  
(c) 3-bit

相似文章

推理模型并非只是思考更久,其运作轨迹也不同

arXiv cs.CL

本文通过分析代码、数学和SAT领域中的隐藏状态轨迹几何特征,探究经推理训练的语言模型是否仅仅分配更多计算资源(更长的思维链),还是遵循了性质不同的内部轨迹。在纠正生成长度的影响后,他们发现经推理训练的模型展现出独特的轨迹几何特征——在代码领域最为明显——这表明推理训练改变了计算展开的方式,而不仅仅是计算量的多少。

Thinking Past the Answer: Evaluating Harmful Overthinking in Large Reasoning Models

arXiv cs.AI

This paper introduces a prefix-level trajectory evaluation protocol to distinguish harmful overthinking from verbose but harmless overthinking in large reasoning models, showing that continued reasoning after reaching the correct answer can destabilize performance. The authors find that early stopping improves accuracy by up to 21% on multimodal benchmarks, and identify logical drift and visual reinterpretation as key causes of correctness deviations.

思考越多,偏见越大:推理模型中由长度驱动的位置偏见

arXiv cs.AI

本研究论文探讨了推理模型中的位置偏见,发现偏见并非随着“更多思考”而消除,而是与推理轨迹的长度成正比。该研究提供了因果证据,并提供了一套诊断工具包,用于审核多选问答评估中这种由长度驱动的偏见。

K-Quantization 及其对输出性能的影响

arXiv cs.CL

本文研究了不同量化级别(2位到8位)对八个大型语言模型在推理、代码理解和阅读理解任务上的性能影响,发现虽然更高精度通常带来更好的性能,但激进量化通常能保持可接受的准确率,且更大的模型展现出更强的韧性。

更多推理,更低准确性?论视觉语言模型中推理的双重性

Papers with Code Trending

本文揭示,视觉语言模型中的长时间推理可能会损害感知基础,导致对基本视觉问题的识别失败。它提出视觉锚定策略优化(VAPO),将推理引导至视觉基础轨迹,并通过VAPO-Thinker-7B模型实现了最先进的性能。