通过错配的错误草稿实现弱到强诱发

arXiv cs.CL 2026/05/19 04:00 论文

reasoning reinforcement-learning grpo weak-to-strong elicitation math llm

摘要

本文提出了一种方法，利用较弱模型提供的错配错误草稿，通过GRPO在较强学习器中引发更优推理，在Mathstral-7B上的MATH-500和AIME基准测试中取得了最先进的结果。

arXiv:2605.17314v1 公告类型：新摘要：我们探究了来自较小较弱模型的离策略经验是否能够激发较强学习者在策略强化学习微调（例如GRPO）未能达到的能力。我们发现，将来自较小但领域训练更充分的模型的数学错误草稿——与当前问题错配——注入较强学习者的GRPO上下文，在保留的MATH-500和分布外AIME 2025/2026上持续优于标准在策略GRPO。具体来说，我们使用Mathstral-7B作为学习者，Qwen2.5-Math-1.5B作为草稿模型，8.8K个Level 3–5 MATH问题（保留MATH-500），并使用Dr. GRPO进行训练。错配是一个主动成分：将草稿打乱到错配的问题，同时保持其他所有条件不变，在MATH-500上（贪婪pass@1）相比匹配错误变体提升了+1.62个百分点（n=10个种子，p=0.0015，Welch's t检验）。实际上，错配错误变体在MATH-500上的贪婪pass@1和采样pass@k均领先于我们测试的所有其他变体。在分布外AIME 2025和2026上，错配错误变体在所有采样预算k=1到k=1024（2个种子）下，唯一将pass@k提升至超过Mathstral-7B（其原生[INST]格式）和Qwen2.5-Math-1.5B草稿模型（在pass@1024下，相比Mathstral-7B在2025年提升+14.2个百分点，2026年提升+9.0个百分点），并且在pass@1024下也领先于无草稿、匹配错误和匹配正确变体（两年均如此）。所有变体在测试时使用相同的提示，不注入草稿。该方法——在单个GPU上训练，无需SFT、奖励模型、合成数据，也无需生成-批评-修改内部循环——在Mathstral-7B-v0.1上达到71.98%的MATH-500，据我们所知是该模型上已发表的最佳结果，超过了更重的WizardMath流水线（在完整MATH上使用SFT+PPO以及过程/指令奖励模型）达到的70.9%。

查看原文

查看缓存全文

缓存时间: 2026/05/19 06:39

# 通过不匹配的错误草稿实现弱到强引导
来源：https://arxiv.org/html/2605.17314

###### 摘要

我们研究来自较小、较弱模型的离策略经验，是否能够在更强的学习者中引导出在线策略RL微调（例如GRPO）无法达到的能力。我们发现，将来自较小但领域训练更充分的模型（与当前问题**不匹配**）的数学上**错误**的草稿，注入到更强学习者的GRPO上下文中，在留出的MATH-500和分布外AIME 2025/2026上始终优于标准的在线策略GRPO。具体来说，我们以Mathstral-7B为学习者，Qwen2.5-Math-1.5B为草稿模型，使用8.8K个Level 3–5 MATH问题（留出MATH-500），并用Dr. GRPO进行训练。不匹配是一个活性成分：在保持其他条件不变的情况下，将草稿打乱到不匹配的问题上，在MATH-500上（贪婪pass@1）相比匹配的错误变体提升了+1.62个百分点（n=10个种子，p=0.0015，Welch's t检验）。事实上，在MATH-500上，无论贪婪pass@1还是采样pass@k，不匹配的错误变体在我们测试的所有变体中均表现最佳。在分布外的AIME 2025和2026上，不匹配的错误变体在所有样本预算（从k=1到k=1024，跨2个种子）下，其pass@k均高于Mathstral-7B（以其原生[INST]格式）和Qwen2.5-Math-1.5B草稿模型（2025年+14.2个百分点，2026年+9.0个百分点，pass@1024对比Mathstral-7B），并且在pass@1024上，它在两年份中均领先于无草稿、匹配错误和匹配正确变体。所有变体在测试时使用相同的提示，不注入草稿。该配方——在单个GPU上训练，无需SFT、奖励模型、合成数据，也无生成-批判-修改内循环——在Mathstral-7B-v0.1上达到了71.98%的MATH-500准确率，据我们所知是此模型上已发表的最佳结果，超过了更重的WizardMath管道在完整MATH上的70.9%（SFT + PPO，带过程/指令奖励模型）。

参见图注 图 1：在分布外的AIME 2025和2026上，不匹配的错误变体（我们的，红色）在所有样本预算（k=1到k=1024）下，其pass@k均高于Mathstral-7B和Qwen2.5-Math-1.5B草稿模型。Mathstral-7B以其原生[INST]聊天格式评估；所有其他变体使用与训练匹配的无草稿提示（字面N/A占位符）。每个问题采样N=2048个样本，温度T=0.6，top-p=0.95，最大4096个完成令牌；结果为2个种子（s={42,137}）的平均值。

## 1 引言

有几种范式旨在改进大语言模型的推理能力：在**正确**的轨迹上进行监督微调，无论是来自更强模型（例如DeepSeek-R1-蒸馏-Qwen (DeepSeek-AI, 2025 (https://arxiv.org/html/2605.17314#bib.bib1))）还是模型自身正确展开的自举（STaR (Zelikman等人, 2022 (https://arxiv.org/html/2605.17314#bib.bib2))，Huang等人 (2023 (https://arxiv.org/html/2605.17314#bib.bib3))）；迭代修正和改进管道，对自身输出进行生成、批判和修改（Madaan等人, 2023 (https://arxiv.org/html/2605.17314#bib.bib4)），包括RL训练的自我修正（Kumar等人, 2025 (https://arxiv.org/html/2605.17314#bib.bib5)）；基于人类反馈的强化学习（RLHF (Ouyang等人, 2022 (https://arxiv.org/html/2605.17314#bib.bib6))），它针对从人类偏好拟合的奖励模型进行训练；以及基于可验证奖励的在线策略强化学习（RLVR），最著名的是GRPO (Shao等人, 2024 (https://arxiv.org/html/2605.17314#bib.bib7))，它使用验证器在模型自身的展开上进行训练。在线策略RL很有吸引力，因为它除了验证器之外不需要任何监督，但其标准形式的输入分布很窄：每个训练提示只是赤裸的问题陈述，奖励只能从强模型已经采样的轨迹中进行选择。这是一个公认的局限性：越来越多的实证分析认为，在线策略RL微调会锐化现有模式，而非扩展基础模型的固有覆盖范围，在大的k下，pass@k通常等于或低于基础模型（Yue等人, 2025 (https://arxiv.org/html/2605.17314#bib.bib8))。

一种自然的扩展学习者在GRPO展开中产出内容（从而让奖励能够评分和选择）的方法是拓宽训练提示分布，同时保持学习者在由此产生的训练-推理分布差异下的鲁棒性。考虑另一个经过更多领域训练的模型：它见过更多数据，积累了尝试、错误和部分解决方案的记录，这些对学习者来说是未知且潜伏的。我们专注于另一个模型**更小**的特殊情况，其训练经验与学习者不同，并探究将其**错误**的草稿轨迹放入学习者的提示上下文窗口中，是否能够引导出在线策略GRPO从裸提示无法达到的能力。

答案取决于第二个选择：注入的草稿是关于当前问题还是关于另一个问题。在固定其他所有条件（学习者Mathstral-7B、草稿模型Qwen2.5-Math-1.5B、数据约8.8K个Level 3–5 MATH问题（留出MATH-500）、算法Dr. GRPO (Liu等人, 2025 (https://arxiv.org/html/2605.17314#bib.bib9))、评估协议）的情况下，我们同时隔离两个轴：草稿内容（正确 vs. 错误）和草稿分配（匹配 vs. 不匹配）。我们将这四个变体以及一个无草稿GRPO基线和Mathstral-7B基础模型，在MATH-500和分布外AIME 2025/2026上进行比较。只有不匹配的错误变体在两个评估上始终超过无草稿GRPO，并且在AIME 2025/2026上的所有样本预算（从k=1到k=1024）下，其pass@k均高于Mathstral-7B和Qwen2.5-Math-1.5B草稿模型（图1 (https://arxiv.org/html/2605.17314#S0.F1)）。

不匹配步骤和草稿的错误性质都是活性成分。我们随机选择一个答案错误的草稿（尽可能避免错误但准正确的草稿），并将其打乱到另一个问题上；这个关于另一个问题的草稿，隐含地将训练提示**提升**为一个更通用但**被掩盖**的任务，而原始裸问题只是该任务的一个退化特例。不匹配的错误草稿是一个**观察**——对一个被掩盖问题的尝试的离策略轨迹，与实际问题一同存在于上下文中。强模型在每次提示的单一展开中从头生成解决方案，无需生成-批判-修改循环或第二次传递。该配方是标准的在线策略RL微调。然后，GRPO的奖励在所有展开中选择强模型从自身固有能力中找到的解决方案。由于感兴趣的任务是训练提示的一个退化特例，训练-推理差异很小。弱模型不是在监督微调强学习者（Burns等人, 2023 (https://arxiv.org/html/2605.17314#bib.bib10)），强学习者也不是在修正较弱的草稿。

该配方在实质上比已发表的最强Mathstral-7B-v0.1管道更简单，但性能更好：使用单个GPU，无需SFT、奖励模型、合成数据，也无生成-批判-修改内循环，不匹配的错误变体在MATH-500上达到了71.98%（n=10个种子，95%置信区间±0.80个百分点）。作为参考，WizardMath (Luo等人, 2025 (https://arxiv.org/html/2605.17314#bib.bib11)) 报告在完整MATH上使用合成SFT阶段，随后进行带过程和指令奖励模型的PPO，达到了70.9%。

#### 贡献

- •**弱到强的引导可以在基于GRPO的在线策略RLVR下同时锐化和扩展强学习者的覆盖范围。**最近的分析认为在线策略RL微调只会锐化现有模式。我们的配方是一个反例：MATH-500贪婪pass@1相比Mathstral-7B基础模型提升了+17.78个百分点（n=10个种子，p<0.0001），并且在分布外AIME 2025/2026上，所有样本预算（k=1至k=1024，2个种子）下的pass@k均高于Mathstral-7B基础模型。
- •**我们证明不匹配×错误是活性成分。**我们在相同的草稿模型、训练数据和配方下，隔离了完整的2×2（草稿分配匹配/不匹配 × 草稿内容正确/错误）变体；只有不匹配的错误变体一致地高于Mathstral-7B基础模型。
- •**一个在Mathstral-7B上击败更重管道的简单配方。**在MATH-500上达到71.98%——超过WizardMath更重的70.9%（完整MATH）——仅使用单个GPU和仅结果奖励的配方。

## 2 相关工作

用于数学推理的RLVR。强化学习推动了LLM在数学领域的大部分近期进展，以GRPO及其衍生算法为例（Shao等人, 2024 (https://arxiv.org/html/2605.17314#bib.bib7); Liu等人, 2025 (https://arxiv.org/html/2605.17314#bib.bib9); Yu等人, 2025 (https://arxiv.org/html/2605.17314#bib.bib12)），以及“零”风格的工作线显示，强大的推理能力可以直接从RL中涌现，无需SFT阶段（DeepSeek-AI, 2025 (https://arxiv.org/html/2605.17314#bib.bib1); Hu等人, 2025 (https://arxiv.org/html/2605.17314#bib.bib13); Zeng等人, 2025 (https://arxiv.org/html/2605.17314#bib.bib14)）。WizardMath (Luo等人, 2025 (https://arxiv.org/html/2605.17314#bib.bib11)) 代表了较重的一端，结合了合成SFT数据与PPO以及过程/指令奖励模型；它是我们标题中Mathstral-7B的70.9%比较对象。我们的配方原样使用Dr. GRPO (Liu等人, 2025 (https://arxiv.org/html/2605.17314#bib.bib9))，创新点在于学习者被训练的**任务**。

RL后训练中的覆盖范围与锐化。越来越多的实证分析认为，在线策略RL微调会锐化现有模式，同时使基础模型在大k下的pass@k覆盖范围保持不变甚至减少（Yue等人, 2025 (https://arxiv.org/html/2605.17314#bib.bib8)）；与此同时，明确在RL中权衡生成多样性与质量的方法也被提出（Li等人, 2025 (https://arxiv.org/html/2605.17314#bib.bib15)）。我们的配方是对“仅锐化”解读的一个反例（见§4 (https://arxiv.org/html/2605.17314#S4)）。

弱到强与自我改进。先前的方法都使用较弱（或较早）的模型作为监督信号：弱到强监督将较弱模型的标签蒸馏到较强模型中（Burns等人, 2023 (https://arxiv.org/html/2605.17314#bib.bib10)）；自举方法基于奖励过滤模型自身正确的展开，迭代地重新训练（STaR (Zelikman等人, 2022 (https://arxiv.org/html/2605.17314#bib.bib2))，ReSTEM (Singh等人, 2024 (https://arxiv.org/html/2605.17314#bib.bib16))）；迭代修正和改进管道通过生成-批判-修改循环训练模型修改自身的尝试（Welleck等人, 2023 (https://arxiv.org/html/2605.17314#bib.bib17)），而SCoRe (Kumar等人, 2025 (https://arxiv.org/html/2605.17314#bib.bib5)) 使用多轮RL和奖励塑造来训练模型修正自身的首次尝试错误。与我们的设置最接近的是，Burns等人 (2023 (https://arxiv.org/html/2605.17314#bib.bib10)) 和Bansal等人 (2025 (https://arxiv.org/html/2605.17314#bib.bib18)) 均使用较弱模型为较强模型产生监督训练数据（分别是标签和合成数据）；我们则是将错误草稿注入强模型的GRPO上下文窗口。在所有前述方法中，较弱（或较早）的模型作为教师或修订的起点；在我们的方法中，它是一个离策略探索者，将训练任务提升到一个更通用的任务，而损失函数相对于强学习者仍然是在线策略的。

## 3 方法

### 3.1 数据

训练使用MATH中12K问题中约8.8K个Level 3–5的问题（Hendrycks等人, 2021 (https://arxiv.org/html/2605.17314#bib.bib19)），并从中去除了MATH-500的500个问题（Lightman等人, 2024 (https://arxiv.org/html/2605.17314#bib.bib20)）。测试使用留出的MATH-500以及AIME 2024/2025/2026（MathArena, 2025 (https://arxiv.org/html/2605.17314#bib.bib21)）。

### 3.2 错误草稿

对于每个训练问题x，我们从较弱模型π\_W中采样32个草稿完成，温度为T=0.8，top-p=0.95，最大2560个完成令牌。我们定义一个辅助函数mathematically\_quasi\_correct(·)，它使用math-verify (Kydlíček and Hugging Face, 2025 (https://arxiv.org/html/2605.17314#bib.bib22)) 针对通过优先回退链提取的答案进行验证：首先是\\boxed{·}，然后是自然语言模式（“答案是X”）、内联数学表达式（$...$）以及裸赋值行（“var = VALUE”）。在这32个中，我们随机采样一个错误且非平凡错误的完成（mathematically\_quasi\_correct=False），如果所有完成都是准正确，则回退到被严格boxed-only标准拒绝的完成，最后回退到任何完成。结果是一个离线的配对集合 {(x, d\_x^-)}*{x∈D}，包含约8.8K个问题，每个问题携带一个选定的草稿，在RL训练开始前进行一次采样。

### 3.3 不匹配的错误草稿

我们应用一个随机的1-1错位排列 σ: D→D，将每个问题与另一个问题的错误草稿配对：

训练数据集 = {(x, d\_σ(x)^−): x∈D}。 (1) （在无约束的随机排列中，固定点的期望数量为1）。然后，我们在增广提示 x̃ = Template(x, d\_σ(x)^−) 上对 π\_S 运行在线策略的 Dr. GRPO (Liu等人, 2025 (https://arxiv.org/html/2605.17314#bib.bib9))；展开和梯度相对于 π\_S 仍然是在线策略的。确切的提示模板见图2 (https://arxiv.org/html/2605.17314#S3.F2)。错位排列在训练开始时固定一次。

问题: {problem} 思考: {draft} 思考部分可能包含错误。逐步解决这个数学问题。写出您自己的正确解决方案。将最终答案放在 \\boxed{} 中。正确解决方案:

图 2: 提示模板。在训练时，{draft} 是（不匹配的、错误的）草稿 d\_σ(x)^−。在评估时，{draft} 是字面字符串“N/A”。

### 3.4 奖励

奖励是二元的且仅基于结果：如果mathematically\_quasi\_correct(completion, gold) 返回 True 则为1，否则为0。我们选择这种宽松的检查，而不是严格的boxed-only要求，以加速训练期间奖励信号的获取。我们不使用格式、长度或过程奖励。我们应用 Dr. GRPO (Liu等人, 2025 (https://arxiv.org/html/2605.17314#bib.bib9)) 来最大化我们有限完成长度预算的效率。训练细节见 §4.1 (https://arxiv.org/html/2605.17314#S4.SS1)。

## 4 实验

### 4.1 实验设置

训练。我们通过LoRA适配器（秩为16，应用于每个Transformer块的所有7个线性投影（注意力 + MLP） (Hu等人, 2022 (https://arxiv.org/html/2605.17314#bib.bib24)) 对Mathstral-7B (Mistral AI, 2024 (https://arxiv.org/html/2605.17314#bib.bib23)) 进行微调，草稿来自Qwen2.5-Math-1.5B (Yang等人, 2024 (https://arxiv.org/html/2605.17314#bib.bib25))，在单个B200 GPU上进行。优化器：AdamW，恒定学习率5×10^{-6}，β2=0.99，

通过错配的错误草稿实现弱到强诱发

相似文章

现成LLM作为过程评分器：数学推理中无需训练的PRM替代方案

通过纠正少数决策令牌即可恢复推理能力

基于外部子图生成的大语言模型逐步推理增强

小型语言模型的代码引导推理：可执行MCQA脚手架评估

通过混合层蒸馏和关键信息的逐步注意力改进小模型的推理能力

提交意见反馈