面向危害感知的LLM数学推理事后替换的受保护修复方法

arXiv cs.CL 论文

摘要

提出了一种名为GuardedRepair的框架,用于对LLM数学推理进行事后替换,通过选择性替换和安全防护来修复错误,同时最小化对正确推理轨迹的损害。在GSM8K上,该方法在未破坏正确答案的情况下,将准确率从95.60%提升至96.89%。

arXiv:2605.24613v1 公告类型:新论文 摘要:LLM数学推理的事后修复引入了一种不对称风险:修复错误的推理轨迹是有用的,但替换原本正确的轨迹可能造成损害。我们在选择性替换设置下研究了该问题,即系统必须判断修复后的候选答案是否比保留原始缓存轨迹更安全。我们提出了GuardedRepair,一种受保护的最佳N修复框架,该框架诊断缓存的推理轨迹,选择性触发修复,并且仅在确定性验证防护支持替换时才接受改变答案的候选方案。该框架结合了轻量级符号检查、表面语义风险诊断、有界候选生成以及保守的接受策略。在完整的GSM8K测试集上,初始推理模型已经达到95.60%的准确率,GuardedRepair将最终准确率提升至96.89%,修复了58个剩余错误中的17个,且在主运行中未检测到破坏正确案例。在弱推理模型ASDiv设置中,准确率从78.40%提升至87.60%。直接重新生成基线显示,这一提升并非仅由更强模型重新求解所解释:对所有GSM8K示例进行重新求解使准确率降至93.03%,并破坏了47个初始正确答案。额外分析表明,受保护修复显著改善了修复/破坏的权衡,同时也揭示了替换风险虽然降低但并未消除。这些结果支持将事后修复视为危害感知的选择性替换,而非无约束的重新求解。
查看原文
查看缓存全文

缓存时间: 2026/05/26 09:04

# 有害感知的事后修复:大语言模型数学推理的受保护替换

来源:https://arxiv.org/html/2605.24613

###### 摘要

大语言模型数学推理的事后修复引入了一种不对称风险:修正一条错误的推理轨迹是有益的,但替换一条原本正确的轨迹可能是有害的。我们在选择性替换的设置下研究这个问题,即系统必须决定修复后的候选答案是否比保留原始缓存轨迹更安全。我们提出 GuardedRepair,一种受保护的最佳N选修复框架,它诊断缓存的推理轨迹,选择性触发修复,并且仅在确定性验证守卫支持替换时才接受改变答案的候选方案。该框架结合了轻量级符号检查、表面语义风险诊断、有界候选生成和保守的接受策略。在完整的 GSM8K 测试集上,初始推理器已经达到 95.60% 的准确率,GuardedRepair 将最终准确率提升至 96.89%,在主要运行中修复了 58 个剩余错误中的 17 个,且未观察到破坏正确答案的案例。在弱推理器 ASDiv 设置下,准确率从 78.40% 提升至 87.60%。直接重生成基线表明,这一提升不能单独由更强模型重新求解来解释:重新求解所有 GSM8K 样例将准确率降低至 93.03%,并破坏了 47 个初始正确的答案。额外的分析表明,受保护修复显著改善了修复/破坏的权衡,同时揭示了替换风险被降低而非消除。这些结果支持将事后修复视为有害感知的选择性替换,而非无约束的重新求解。

## 1 引言

大语言模型是强大的数学应用题求解器,但其推理轨迹仍可能包含算术失误、遗漏约束、语义绑定错误或格式错误的最终答案。仅通过最终答案评估难以处理这些错误:一条轨迹可能在解决错误问题时仍显得流畅,而修复模型也可能自信地将一个初始正确的答案替换为错误的。我们研究的是**事后修复**:初始大语言模型已经产生了一条缓存的推理轨迹和最终答案,系统必须决定是保留还是替换该轨迹。这种设置不同于普通的重新求解、自我修正或最佳N选,因为原始轨迹可能已经是正确的。因此,核心风险不仅在于新候选答案是否合理,更在于接受它是否比保留原答案更安全。我们将此问题形式化为有害感知的选择性替换:在控制破坏正确答案案例的同时,最大化修复的错误。

GuardedRepair 实现了这一视角,作为一种受保护的最佳N选替换协议。其各个组成部分——算术检查、表面语义启发式、多个候选方案和确定性过滤器——本身并非全新。贡献在于使替换决策显式化。触发器控制何时花费额外计算以及暴露多少修复机会;候选生成器提供一组有界的可能替换;接受守卫决定改变答案的候选方案是否比缓存轨迹更安全;评估协议同时报告修复和破坏的转换。这种分解很重要,因为系统可以提高最终准确率,但仍可能造成不可接受的替换伤害。因此,目标不是引入一个新的验证器,而是研究在原始轨迹可能已经正确的情况下,事后修复应如何被接受和评估。

在完整的 GSM8K 上,初始的 `deepseek-v4-flash` 推理器仅留下 58 个错误,GuardedRepair 在主要运行中修复了其中 17 个,准确率从 95.60% 提升至 96.89%。在种子 42 的数值型 ASDiv 子集上,以 `qwen2.5:1.5b` 作为初始推理器,准确率从 78.40% 提升至 87.60%,修复了 92 个错误。额外的 ASDiv 种子、GSM8K 修复阶段重复运行、SVAMP 和 MultiArith 上的弱推理器检查,以及本地 Qwen 修复模型检查,均显示一致的正向净收益,同时也揭示了罕见的破坏正确答案案例以及较弱修复模型的较低修复召回率。这些结果支持预期的结论:受保护修复相对于直接重生成显著降低了替换风险,但并未普遍消除该风险,并且仍对候选答案质量敏感。

我们的贡献是:
- • 我们将替换风险识别为事后数学推理修复中的核心失败模式:修复系统不仅要根据其修复了什么来评估,还要根据其破坏了什么来评估。
- • 我们将修复形式化为对缓存轨迹的有害感知选择性替换,分离了触发器、候选生成器、接受守卫以及修复/破坏评估的角色。
- • 我们通过一个受保护的最佳N选协议实例化该形式化,并使用修复/破坏核算、接受修复精确率、候选流分析以及计算感知的直接重生成基线进行评估。
- • 我们在 GSM8K、数值型 ASDiv 和弱推理器鲁棒性设置上表明,受保护修复相对于直接重生成改善了修复/破坏权衡,同时阐明了修复安全性和候选质量的剩余限制。

## 2 相关工作

#### 推理与验证。
思维链和分解提示通过鼓励中间步骤来改进数学推理(Wei 等人,2022 (https://arxiv.org/html/2605.24613#bib.bib1);Zhou 等人,2023 (https://arxiv.org/html/2605.24613#bib.bib2))。验证器和过程监督方法对候选解决方案或中间步骤进行评分(Cobbe 等人,2021 (https://arxiv.org/html/2605.24613#bib.bib3);Lightman 等人,2023 (https://arxiv.org/html/2605.24613#bib.bib4));最近的过程奖励工作通过学习过程级评估器对此进行了扩展(She 等人,2025 (https://arxiv.org/html/2605.24613#bib.bib12))。GuardedRepair 与检查推理的目标一致,但执行对现有缓存轨迹的事后替换,并使用确定性诊断而非学习到的验证器。

#### 自我修正、测试时扩展和工具。
自我精炼和自我修正要求模型批判或修订自身输出(Madaan 等人,2023 (https://arxiv.org/html/2605.24613#bib.bib5);Wu 等人,2025 (https://arxiv.org/html/2605.24613#bib.bib13);Xiong 等人,2025 (https://arxiv.org/html/2605.24613#bib.bib14);Zhang 等人,2025 (https://arxiv.org/html/2605.24613#bib.bib15))。测试时扩展和最佳N选方法花费额外推理来采样、排序或修订解决方案。工具增强方法(如 ReAct、PAL 和程序思维提示)将计算卸载到外部动作或可执行程序(Yao 等人,2023 (https://arxiv.org/html/2605.24613#bib.bib6);Gao 等人,2023 (https://arxiv.org/html/2605.24613#bib.bib7);Chen 等人,2023 (https://arxiv.org/html/2605.24613#bib.bib8))。相反,GuardedRepair 不会重新求解每个问题或将其转换为程序;它仅当替换看起来比保留更安全时,才修复缓存的自然语言轨迹。

#### 选择性预测和数学基准。
选择性预测研究系统应在何时因不确定性而回避(El-Yaniv 和 Wiener,2010 (https://arxiv.org/html/2605.24613#bib.bib16);Geifman 和 El-Yaniv,2017 (https://arxiv.org/html/2605.24613#bib.bib17))。我们的行动不同:系统已经有一个答案,必须决定是否替换它。先前的数学应用题研究强调对数量和关系进行建模的必要性(Hosseini 等人,2014 (https://arxiv.org/html/2605.24613#bib.bib9);Patel 等人,2021 (https://arxiv.org/html/2605.24613#bib.bib10));ASDiv 提供了一个多样化的算术语料库(Miao 等人,2020 (https://arxiv.org/html/2605.24613#bib.bib11))。我们在完整的 GSM8K 和数值型 ASDiv 上进行评估,附录 A.1 (https://arxiv.org/html/2605.24613#A1.SS1) 总结了 GuardedRepair 与相邻范式的区别。相邻范式主要决定信任哪个新生成的解决方案、如何通过模型反馈修订解决方案,或者何时回避。GuardedRepair 则从一个已经缓存的轨迹出发,提出一个不同的问题:改变答案的修复是否比保留原始轨迹更安全。这使得破坏正确答案的核算成为核心而非辅助。

## 3 方法

**诊断 → 修复生成 → 受保护选择**

问题 x → 初始推理 r₀ → 多级诊断(符号检查、约束覆盖、表面风险图) → 是否需要修复?(否:保留原始推理;是:确定性诊断提示) → 提示引导的最佳N选修复(r_c^(1), r_c^(2), …, r_c^(N)) → 候选验证(输出清洁度、元一致性、图守卫、方程支持) → 接受候选?(否:保留原始推理;是:使用修复后的推理) → 最终推理 r_f → 最终答案 a_f

图 1:受保护的最佳N选事后修复。默认操作是保留缓存轨迹;仅当触发的修复候选通过确定性守卫时,才发生替换。

### 3.1 问题形式化

给定问题 x,缓存的初始推理 r₀ 和答案 a₀,系统输出最终推理 r_f 和答案 a_f。标准答案仅用于评估。设 F 为修复的初始错误案例数,B 为破坏的初始正确案例数。我们将事后修复视为有约束的替换:

max_π F(π)  s.t. B(π) ≤ ε。   (1)

默认操作是保留原始轨迹。仅当候选通过受保护的接受策略时,才进行替换:

r_f = { r_c,如果候选修复通过所有门; r₀,否则 }。   (2)

该框架将修复分解为不同的决策组件。触发器 T(x, r₀) 决定是否花费额外计算,从而控制候选召回率和成本。生成器 G_N(x, r₀) 构建一个大小至多为 N 的有界候选集。接受规则 A(x, r₀, r_c) 通过仅在确定性证据支持候选优于缓存轨迹时才允许改变答案的替换,来实现伤害约束。最后,评估协议同时报告 F 和 B,因为如果以破坏许多初始正确轨迹为代价获得更高的最终准确率,可能会产生误导。

### 3.2 诊断与触发

GuardedRepair 是一个替换风险决策协议,而非独立的验证器、解析器或解码算法。它使用轻量级确定性诊断、有界的最佳N选候选生成和保守的接受守卫来实例化上述分解。守卫故意保持简单且可审计:其角色不是作为独立任务解决语义解析或验证,而是在明确的伤害约束下操作化替换决策。诊断包括算术方程检查、数值约束覆盖、元一致性评分和表面语义风险图信号。表面语义风险图是一个保守的风险特征,而非语义解析器:它提取数量提及和表面关系模式(如聚合、比较、比率、变化事件和部分-整体关系),然后发出风险类别,如数量绑定、比较警告、答案格式警告或每实体比率遗漏。详情、阈值、风险类别以及图风险信号的手动审计见附录 B.2 (https://arxiv.org/html/2605.24613#A2.SS2)、B.4 (https://arxiv.org/html/2605.24613#A2.SS4)、B.5 (https://arxiv.org/html/2605.24613#A2.SS5)、B.7 (https://arxiv.org/html/2605.24613#A2.SS7) 和 B.17 (https://arxiv.org/html/2605.24613#A2.SS17)。仅当诊断指示风险时才尝试修复,包括空生成、算术失败、高风险语义问题、严重缺失约束信号或低元一致性。否则,保留缓存轨迹而不调用修复模型。

### 3.3 最佳N选修复与受保护接受

对于每个触发案例,修复模型使用不同的提示策略生成最多 N 个 JSON 格式的候选:提示引导修复、严格简洁算术,以及从原始问题求解同时将初始轨迹视为警告信号。最终实验使用 N=3。每个候选被规范化、重新诊断,并通过确定性门评估输出清洁度、语义图风险、元一致性和方程支持。该策略不使用学习到的验证器或大语言模型评委。在宽松支持设置中,最终答案必须由算术或数论推导显式支持。伪代码、提示、清洁度检查、方程支持语法和消融开关见附录 B.9 (https://arxiv.org/html/2605.24613#A2.SS9)、B.10 (https://arxiv.org/html/2605.24613#A2.SS10)、B.11 (https://arxiv.org/html/2605.24613#A2.SS11)、B.12 (https://arxiv.org/html/2605.24613#A2.SS12)、B.16 (https://arxiv.org/html/2605.24613#A2.SS16) 和 B.18 (https://arxiv.org/html/2605.24613#A2.SS18)。

## 4 实验设置

#### 数据集和模型。
主要评估使用包含 1,319 个样本的完整 GSM8K 测试集。弱推理器评估使用从 2,147 个样本的数值池中以种子 42 均匀采样的 1,000 个样本的数值型 ASDiv 子集。我们进行采样以控制修复阶段成本;子集在任何修复实验之前抽取,并非根据模型性能选择。为了评估采样敏感性,附录 B.14 (https://arxiv.org/html/2605.24613#A2.SS14) 报告了来自同一池的另外三个 1,000 样本种子。过滤和采样过程见附录 B.3 (https://arxiv.org/html/2605.24613#A2.SS3)。GSM8K 初始轨迹由 `deepseek-v4-flash` 生成,而主要修复候选使用 `deepseek-v4-pro`。在弱推理器设置中,初始推理器是 `qwen2.5:1.5b`。我们还在 ASDiv 种子 42 设置上运行本地 `qwen2.5:7b` 和 `qwen2.5:14b` 修复模型可移植性检查,同时保持缓存的初始轨迹和接受策略不变。修复调用使用温度 0.0、JSON 输出、768 令牌预算和一次 512 令牌格式重试。模型和解码细节见附录 B.1 (https://arxiv.org/html/2605.24613#A2.SS1)。

#### 指标。
我们报告初始/最终准确率、绝对提升、修复的错误、破坏的正确答案案例、接受修复精确率、错误修复率和伤害率:

伤害率 = #破坏正确答案 / #总样本。   (3)

接受修复精确率是指接受修复中从错误到正确转换的比例。这是保守的:接受错误到错误的修改会降低精确率,即使它们没有破坏正确答案。我们还对更改的样本报告精确配对符号检验的 p 值,并仅描述性地使用“零测量伤害”;在观察到零个破坏正确答案案例的情况下,三倍规则给出 GSM8K 约 0.23% 和 1,000 样本 ASDiv 设置约 0.30% 的近似 95% 上限。

## 5 结果

### 5.1 主要结果

表 1 (https://arxiv.org/html/2605.24613#S5.T1) 显示了主要结果。在完整的 GSM8K 上,GuardedRepair 将准确率从 95.60% 提升至 96.89%,修复了 58 个初始错误案例中的 17 个,且在主要运行中未测量到破坏正确答案的案例。虽然 GSM8K 的绝对提升为 1.29 个百分点,

相似文章

LGMT:基于逻辑的变形测试用于评估LLM推理可靠性

arXiv cs.AI

本文介绍了LGMT,这是一个利用一阶逻辑生成语义不变测试用例以评估LLM推理可靠性的框架。在六个LLM上的实验表明,LGMT暴露了静态基准遗漏的隐藏缺陷,提示评估应侧重于逻辑不变性下的鲁棒性。

通过纠正少数决策令牌即可恢复推理能力

arXiv cs.AI

本文表明,基础LLM与大型推理模型之间的推理差距集中在少量早期规划令牌上。本文提出一种基于分歧的令牌干预方法,仅用推理模型的输出替换这些关键令牌,即可使基础模型的表现几乎与推理模型持平。

具备潜在推理能力的鲁棒高效护栏

arXiv cs.AI

CoLaGuard 是一种新型护栏模型,它将多步安全推理转移到连续潜在空间中,与显式推理基线相比,实现了 12.9 倍的加速和 22.4 倍的 Token 缩减,同时在十个安全基准上匹配宏 F1 性能。