脆弱的思考:大型语言模型如何处理思维链扰动

arXiv cs.CL 论文

摘要

本论文对大型语言模型在思维链推理步骤中处理损坏情况的能力进行了全面的实证评估,在数学推理任务上针对13个模型和5种扰动类型(数学错误、单位转换、盲从、跳过步骤、额外步骤)进行了测试。研究结果揭示了异质性的漏洞模式,对在多阶段推理管道中部署LLM具有重要意义。

arXiv:2603.03332v3 公告类型:替换 摘要:思维链(CoT)提示已成为从大型语言模型中激发推理的基础技术,但这种方法对中间推理步骤中损坏的鲁棒性仍然知之甚少。本论文对LLM对5种结构化CoT扰动类型的鲁棒性进行了全面的实证评估:数学错误、单位转换、盲从、跳过步骤和额外步骤。我们评估了13个模型,参数量跨越三个数量级,测试了它们在推理链中注入扰动的情况下完成数学推理任务的能力。我们的主要发现揭示了异质性的漏洞模式:数学错误扰动在小型模型中造成最严重的性能下降(准确率损失50-60%),但展现了很强的扩展优势;单位转换在所有规模上都具有挑战性(中型模型的损失>5%);额外步骤即使对最小的模型也只造成最小的准确率下降(0-6%);盲从和跳过步骤对小型模型产生适度影响(~10%的损失),随着规模扩大略有改善。扩展关系显示模型大小对许多扰动起保护作用,但并非总是如此。这些发现对在多阶段推理管道中部署LLM具有直接影响,强调了进行特定任务鲁棒性评估和制定缓解策略的必要性。代码和结果可在 https://github.com/Mystic-Slice/CoTPerturbation 获取
查看原文
查看缓存全文

缓存时间: 2026/04/20 08:32

# 脆弱的思维:大型语言模型如何处理思维链扰动
来源:https://arxiv.org/html/2603.03332
Ashwath Vaithinathan AravindanUniversity of Southern California, Los Angeles, 90007, California, United States of Americavaithina@usc\.eduMayank KejriwalInformation Sciences Institute, 4676 Admiralty Way \#1001, Los Angeles, 90292, California, United States of America

###### 摘要

思维链(CoT)提示已成为从大型语言模型(LLM)中激发推理的基础技术,但该方法对中间推理步骤中的腐败的鲁棒性仍然鲜为人知。本文对LLM对5种结构化CoT扰动类型的鲁棒性进行了全面的实证评估:数学错误、单位转换、曲意逢迎、跳过步骤和额外步骤。我们评估了13个跨越三个数量级参数计数的模型,测试其在推理链中注入扰动的情况下完成数学推理任务的能力。关键发现揭示了异质性脆弱性模式:数学错误扰动在小模型中产生最严重的下降(准确率损失50-60%),但表现出强大的扩展优势;单位转换在所有规模上都具有挑战性(即使对于中型模型也>5%的损失);额外步骤导致最小的准确率下降(0-6%),即使对于最小的模型也是如此;曲意逢迎和跳过步骤对小模型产生适度影响(~10%的损失),并随规模略有改进。扩展关系表明模型大小对许多扰动起到保护作用,但并非总是如此。这些发现对在多阶段推理管道中部署LLM有直接影响,并强调了任务特定鲁棒性评估和缓解策略的必要性。代码和结果可在此处获得(https://github.com/Mystic-Slice/CoTPerturbation)。

###### 关键词:

大型语言模型、鲁棒性、思维链、LLM推理

## 介绍

大型语言模型已成为跨多个领域的变革性工具,从自然语言理解到科学发现[19](https://arxiv.org/html/2603.03332#bib.bib48)。这些模型的定义优势是它们执行需要多步逻辑或计算的复杂推理任务的能力。随着LLM越来越多地被部署在精确性和可靠性至关重要的应用中,理解其推理能力和局限性已变得至关重要。这些模型在复杂任务上的成功不仅取决于模式识别,还取决于它们以人类能够理解和验证的方式透明地推理问题的能力[8](https://arxiv.org/html/2603.03332#bib.bib46),[22](https://arxiv.org/html/2603.03332#bib.bib47)。

思维链(CoT)提示已成为从大型语言模型(LLM)中激发复杂推理的重要技术。提供中间推理步骤已被证明[30](https://arxiv.org/html/2603.03332#bib.bib6)能够显著改进数学问题求解和多步推理任务的性能。基于此,甚至零样本CoT提示,使用简单短语如"让我们一步步思考",可以在没有注释示例的情况下解锁LLM中潜在的推理能力[12](https://arxiv.org/html/2603.03332#bib.bib7)。这一成功已将CoT确立为推理密集型应用的事实上的标准提示策略。

但这一成功引发了一个根本问题:LLM在多大程度上真正执行逐步逻辑推理,在多大程度上利用了在训练期间学到的表面级模式[25](https://arxiv.org/html/2603.03332#bib.bib1),[1](https://arxiv.org/html/2603.03332#bib.bib4)?当模型在遵循CoT轨迹后产生正确的最终答案时,它是否验证了中间步骤的一致性,还是仅仅关联推理文本和预期输出[2](https://arxiv.org/html/2603.03332#bib.bib5)?这种区别对金融[6](https://arxiv.org/html/2603.03332#bib.bib49)、医学[20](https://arxiv.org/html/2603.03332#bib.bib19)和科学发现[16](https://arxiv.org/html/2603.03332#bib.bib50)等高风险应用具有直接的实际意义,其中理解模型是通过稳健推理还是脆弱的模式匹配实现精确性对安全部署至关重要。

最近的实证工作已经暴露了CoT推理中令人担忧的脆弱性。单个字符的打字错误已被证明[7](https://arxiv.org/html/2603.03332#bib.bib8)会显著降低数学基准上的准确性。对代码推理问题的语义对抗扰动将准确率降低超过42%[23](https://arxiv.org/html/2603.03332#bib.bib9)。已确定了"滚雪球"效应[38](https://arxiv.org/html/2603.03332#bib.bib11),其中推理链早期的错误通过后续步骤放大。这些发现共同突出了LLM推理对输入腐败的易碎性。然而,现有研究的重点很狭窄,仅关注特定的扰动类型(打字错误、代码级攻击)或孤立的模型,留下了多样化、推理特定的腐败如何影响跨不同规模和体系结构的多个模型族这个问题未答复。

在现实世界的部署中,推理链可能不完整、包含计算错误,或来自质量各异的上游系统。评估LLM如何处理此类现实腐败对于构建可信的多阶段推理管道至关重要。然而,以前没有针对全面的、结构化的推理特定扰动分类对广泛的模型进行系统评估。

为了填补这一空白,我们对LLM对CoT扰动的鲁棒性进行了系统评估。我们的贡献包括:

1. 一个结构化的扰动分类,包括5种推理特定的类型:数学错误、单位转换、曲意逢迎、跳过步骤和额外步骤;
2. 对13个语言模型的广泛实证评估,跨越三个数量级的参数计数,揭示鲁棒性如何随模型大小扩展并跨扰动类型变化;
3. 差分扩展关系的定量表征,表明鲁棒性改进是异质性的:对于数学错误很陡峭,对于曲意逢迎和跳过步骤很浅,对于冗余信息不存在。

本文的其余部分结构如下。我们首先调查有关CoT推理和鲁棒性评估的相关工作。接下来,我们介绍我们的扰动分类和实验方法。然后,我们提出了跨多个模型和扰动类型的实证发现。最后,我们讨论我们工作的含义和局限性。

## 预备知识

我们首先建立思维链推理和扰动的正式定义,以便在整个工作中进行精确分析。

**思维链提示。** 设$\mathcal{M}$表示由$\theta$参数化的语言模型。给定问题实例$x$和提示模板$\Pi$,模型生成一系列令牌,我们将其分解为中间推理步骤和最终答案。形式上,我们可以将完整的CoT响应表示为:

$$\mathcal{M}(x,\Pi)=\langle r_1,r_2,\ldots,r_n,a\rangle \quad (1)$$

其中$r_i$表示第$i$个中间推理步骤,$a$表示最终答案。每个$r_i$是模型产生的一系列令牌。提示模板$\Pi$包括指令"让我们一步步思考"或其变体,这条件化模型以生成这种逐步分解。

**腐败的推理链。** 我们定义一个扰动函数$\mathcal{P}$,在模型处理之前修改推理链。给定地面真实推理链$R=\langle r_1,r_2,\ldots,r_n\rangle$和扰动类型$\tau\in\{\text{MathError, UnitConversion, Sycophancy, SkippedSteps, ExtraSteps}\}$,腐败链为:

$$R'=\mathcal{P}_\tau(R)=\langle r_1',r_2',\ldots,r_i'\rangle \quad (2)$$

模型随后在上下文中处理这条腐败链:$\mathcal{M}(R',x,\Pi)=\langle r_1',\ldots,r_n',a'\rangle$,其中$a'$是在条件于扰动推理的情况下产生的答案。模型$\mathcal{M}$对扰动$\tau$的鲁棒性定量化为:

$$\text{Robustness}_\tau(\mathcal{M})=\frac{\text{Accuracy}(a'=a_{\text{gold}})}{\text{Accuracy}(a=a_{\text{gold}})} \quad (3)$$

其中$a_{\text{gold}}$是正确答案,准确度在测试集上测量。鲁棒性评分接近1表示模型在扰动下保持正确性,而接近0的评分表示严重的下降。

**扩展和异质性扰动效应。** 我们的分析检查了鲁棒性如何在不同规模的模型上演变。设$\mathcal{M}_s$表示具有参数计数$s\in\{7B,13B,70B,405B,\ldots\}$的模型族。我们调查扰动$\tau$的鲁棒性是否表现出:

$$\text{Robustness}_\tau(\mathcal{M}_{s_1})\lessgtr\text{Robustness}_\tau(\mathcal{M}_{s_2})\quad\text{对于}\quad s_1<s_2 \quad (4)$$

这种关系可能因扰动类型而异,导致异质性扩展模式,这是我们实证调查的中心。

## 相关工作

**输入鲁棒性和对抗扰动。** 随着LLM在现实世界应用中的部署,对腐败或对抗性扰动输入的LLM鲁棒性的问题变得越来越重要。Singh等人[25](https://arxiv.org/html/2603.03332#bib.bib1)系统地检查了LLM对现实世界文本扰动的鲁棒性,包括拼写错误、OCR噪声和同义词替换,表明许多生成式LLM对这些常见噪声类型表现出令人惊讶的鲁棒性。然而,Alahmari等人[1](https://arxiv.org/html/2603.03332#bib.bib4)揭示了一个关键的反面:专门在干净数据上训练的模型在甚至微小扰动(如单字符打字错误)下产生不可预测的输出,表明训练集构成显著决定扰动容忍度。Bogavelli等人[2](https://arxiv.org/html/2603.03332#bib.bib5)将此分析扩展到企业背景,发现提示格式变化、词序变化和语言变化可将性能降低最多40个百分点,令人惊讶的是,较小的模型有时在这些转换中比较大的模型保持更好的一致性。除了表面级输入噪声外,PromptBench[37](https://arxiv.org/html/2603.03332#bib.bib39)提供了一个全面的评估框架,表征LLM对对抗性精心设计的指令本身的脆弱性,涵盖语义攻击、结构修改和字符级扰动。DeceptPrompt[31](https://arxiv.org/html/2603.03332#bib.bib38)演示了具体的利用策略,显示对抗性自然语言指令如何系统地误导代码生成模型产生不正确或不安全的代码。我们的工作将重点从表面级输入噪声和指令级攻击转移到一个互补的区域:在推理链的中间步骤中引入的扰动,这代表了与输入级脆弱性不同的故障模式。

**思维链推理及其变体。** Wei等人[30](https://arxiv.org/html/2603.03332#bib.bib6)证明了提示模型表达推理步骤显著改进复杂推理任务的性能,而Kojima等人[12](https://arxiv.org/html/2603.03332#bib.bib7)表明这种效果即使没有任务特定的示例也持续存在。基于这一基础,研究人员提出了增强CoT推理的变体:规划与求解[28](https://arxiv.org/html/2603.03332#bib.bib36)通过在求解前鼓励显式规划来改进零样本性能,思维程序[4](https://arxiv.org/html/2603.03332#bib.bib37)将逻辑推理与计算分离,允许模型委托数值操作。然而,表观推理和实际理解之间出现了令人困扰的差距。Turpin等人[26](https://arxiv.org/html/2603.03332#bib.bib20)识别了"聪明的汉斯"行为,其中模型利用表面级关联而不是进行真正的推理。这种关注被ProcessBench[36](https://arxiv.org/html/2603.03332#bib.bib22)和DeltaBench[10](https://arxiv.org/html/2603.03332#bib.bib15)验证,它们揭示正确的最终答案经常与严重的内部推理错误共存,表明标准精确度指标掩盖了中间推理步骤中的基本脆弱性。在对抗前线,Gan等人[7](https://arxiv.org/html/2603.03332#bib.bib8)量化了即使单个字符的打字错误如何严重降低推理精确度(例如,将Mistral-7B的GSM8K性能从43.7%降低到38.6%),而Xiang等人[32](https://arxiv.org/html/2603.03332#bib.bib26)介绍了BadChain,一种将微妙的语义违规注入推理链的有针对性的后门攻击,展示了CoT的逐步结构如何创建新的攻击面。除了打字错误,Roh等人[23](https://arxiv.org/html/2603.03332#bib.bib9)和Yue等人[33](https://arxiv.org/html/2603.03332#bib.bib10)表明对代码推理任务的对抗性扰动将准确率降低超过42%,揭示CoT结构本身如何在多个领域中被系统地利用。在更深层次上,Mirzadeh等人[18](https://arxiv.org/html/2603.03332#bib.bib41)开发了GSM-Symbolic来暴露一个根本性限制:正确求解数学单词问题的模型在应用符号或语义转换时失败(例如,重命名变量或重新排列逻辑结构),表明依赖虚假关联而不是组合理解。Zhu等人[38](https://arxiv.org/html/2603.03332#bib.bib11)识别了"滚雪球"效应,其中在推理链早期引入的错误通过错误级联在后续步骤中放大,并提议了AdvChain,一种通过在腐败推理链上培训来改进鲁棒性的对抗性微调方法。

**错误检测、验证和推理偏见。** 为了解决CoT脆弱性,社区已经探索了互补的缓解策略。Zhang等人[34](https://arxiv.org/html/2603.03332#bib.bib12)和Guo等人[9](https://arxiv.org/html/2603.03332#bib.bib14)证明了基于训练的方法可以使模型能够通过监督学习和强化学习来验证和纠正自己的推理,有效地教导模型检测和修复错误。Zhang等人[35](https://arxiv.org/html/2603.03332#bib.bib13)进一步表明推理链末尾附近的错误对最终正确性的伤害尤其大,激发了对高风险位置的有针对性的干预。除了训练外,评估指标已演变为更精确地捕捉推理质量。ROSCOE[8](https://arxiv.org/html/2603.03332#bib.bib46)一

相似文章