弱批评者造就强学习者：面向可扩展监督的在线策略批评蒸馏

arXiv cs.AI 2026/06/02 04:00 论文

weak-to-strong scalable-oversight critique-distillation llm-alignment reasoning on-policy

摘要

提出使用弱模型作为批评者的在线策略批评蒸馏（OPCD），为强模型提供修正方向，从而增强推理能力和对齐，无需弱模型解决任务。

arXiv:2606.00424v1 Announce Type: new 随着大型语言模型变得更强，弱监督者可能无法为复杂输出提供可靠的标签、偏好或最终判断，从而限制了从弱到强的泛化能力和可扩展监督。我们研究一种更易处理的弱监督形式：将弱模型用作批评者，而不用作标记者或评判者。弱批评者不需要解决任务或选择正确答案，只需提供非误导性的修正方向，帮助强模型更好地利用自身知识。我们将此设置称为*弱批评者强监督*。我们首先展示弱批评可以在推理时改进冻结的强模型，并且批评质量是改进的关键。然后我们提出渐进式在线策略批评蒸馏（**OPCD**），它过滤高质量批评并通过自适应自教师信号将批评者引导的行为蒸馏到强模型中。在推理和对齐基准上的实验表明，我们的方法随着训练轮次改进了强模型，为弱监督下的可扩展监督提供了一条有效路径。

查看原文

查看缓存全文

缓存时间: 2026/06/02 15:46

# 在线策略批评蒸馏用于可扩展监督
来源：https://arxiv.org/html/2606.00424
## 弱批评者造就强学习者：基于在线策略的批评蒸馏用于可扩展监督

###### 摘要

随着大型语言模型越来越强大，弱监督者可能无法为复杂输出提供可靠的标签、偏好或最终判断，从而限制了弱到强泛化和可扩展监督。我们研究了一种更易处理的弱监督形式：将弱模型用作批评者而非标注者或评判者。弱批评者无需解决任务或选择正确答案，只需提供一个非误导性的修订方向，帮助强模型更好地运用自身知识。我们将此设定称为*弱批评者-强监督*。我们首先证明，弱批评可以在推理时改进冻结的强模型，并且批评质量是这种改进的关键。然后，我们提出渐进式在线策略批评蒸馏（Opcd），该方法筛选高质量批评，并通过自适应自教师信号将批评引导的行为蒸馏到强模型中。在推理和对齐基准上的实验表明，我们的方法能在训练轮次中持续提升强模型性能，为基于弱监督的可扩展监督提供了一条有效路径。

可扩展监督，弱到强泛化，LLM对齐，LLM推理

## 1 引言

现代大型语言模型（LLM）通常通过人类监督进行对齐，例如任务示范、偏好标签、奖励模型以及基于人类反馈的强化学习（Christiano 等人，2017 (https://arxiv.org/html/2606.00424#bib.bib31)；Ouyang 等人，2022 (https://arxiv.org/html/2606.00424#bib.bib52)；Bai 等人，2022a (https://arxiv.org/html/2606.00424#bib.bib53)）。当监督者能够可靠地判断模型输出时，这些方法效果良好。然而，随着模型越来越强大，它们可能产生人类或较弱模型难以完全验证的答案、计划、证明或代码。这给对齐带来了一个核心挑战：当最终任务对于监督者来说过于困难无法解决或判断时，弱监督者如何引导更强的模型？

两个相关的研究方向探讨了这一挑战。弱到强泛化探究来自弱模型的监督是否能引发更强预训练模型的有用行为（Burns 等人，2023 (https://arxiv.org/html/2606.00424#bib.bib1)）。可扩展监督研究弱人类或模型如何通过协助、交互或辩论为更强系统提供可靠监督（Amodei 等人，2016 (https://arxiv.org/html/2606.00424#bib.bib37)；Irving 等人，2018 (https://arxiv.org/html/2606.00424#bib.bib38)；Bowman 等人，2022 (https://arxiv.org/html/2606.00424#bib.bib5)；Khan 等人，2024 (https://arxiv.org/html/2606.00424#bib.bib55)）。尽管这些方向目标不同，但许多现有方法对弱监督者施加了相似的负担：弱模型必须提供直接标签、软 logits、偏好信号或对完整答案的最终判断。当任务超出弱监督者完全能力范围时，这可能会要求过高。在这种情况下，监督信号可能带有噪声、不完整或系统性地错误，这限制了弱到强泛化和可扩展监督。

在本文中，我们研究了一种不同的弱监督形式：将弱模型用作*批评者*而非标注者或评判者。弱批评者无需解决任务、提供正确答案、识别每个错误或给出详细的修改计划。它可以通过给出一个一般性但正确的修订方向来发挥作用，例如建议推理不完整、遗漏了某个条件、应检查边界情况、或回复应更安全。这种形式的反馈通常比标注或评判完整答案更容易，并且接近常见的人机交互：用户可能不知道完整解决方案，但他们仍然可以提供有助于更强模型修订的反馈。只要批评不具误导性，它就能帮助强模型更好地运用自身知识，而无需弱监督者提供完整监督。我们将此设定称为*弱批评者-强监督*。

我们首先在推理时测试这一想法。给定一个问题，强模型生成初始答案，弱模型对其进行批评，然后强模型根据问题、初始答案和批评修改其答案。这直接评估了弱批评是否能改进冻结的强模型。我们的结果表明，即使批评只给出一般性修订方向而非详细的错误分析，弱批评也能起到改进作用。这支持了*弱批评者-强监督*的核心假设：弱监督者可能无需解决或判断整个任务就能提供有用的监督。我们还发现批评质量至关重要。有益的批评能提升性能，而误导性批评则可能损害性能，甚至比不使用批评更差。这激发了在训练前筛选有用批评的动机。

为了内化推理时的改进，我们提出了一种渐进式在线策略批评蒸馏方法（Opcd）。在每个轮次中，当前强模型生成在线策略答案，弱模型对这些答案进行批评。然后，我们使用基于结果和规则的质量度量来保留只有有用的批评。对于每个保留的样本，基于批评的强模型充当自教师，利用批评作为指导提供密集的 token 级信号。学生是同一强模型但不访问批评，通过在线策略蒸馏进行训练。每次更新后，强模型生成具有新错误模式的新答案，弱批评者为更新后的模型提供新的批评。这个过程将推理时观察到的有用批评引导行为蒸馏出来，同时保持监督适应当前强模型。

我们的实验表明，*弱批评者-强监督*在推理时和训练时设定中都能提升强模型的性能。与直接蒸馏弱模型响应或 logits 的标准弱到强方法相比，我们的方法不强制弱模型提供完整监督。与基于真实标签的监督微调相比，我们的方法研究了一个更现实的监督设定，其中可靠标签可能不可用或对于弱监督者来说过于困难。在推理和对齐基准上，渐进式在线策略批评蒸馏在训练轮次中持续改进强模型，表明基于批评的监督是可扩展监督和弱到强泛化的有效途径。

我们的主要贡献是：

- ★ 基于批评的弱监督。我们将批评识别为比标注或评判更易处理的弱监督形式，并针对可扩展监督和弱到强泛化提出*弱批评者-强监督*。
- ★ 推理时验证。我们证明弱批评可以在推理时提高强模型性能，即使它们只提供一般性修订方向，并发现批评质量是可靠改进的关键。
- ★ 渐进式批评蒸馏。我们引入 Opcd，一种渐进式在线策略批评蒸馏策略，筛选高质量批评并将其用作自适应弱反馈来训练强模型。
- ★ 强结果。在多个基准上，Opcd 逐步提升强模型性能，表明基于批评的监督可以有效地利用弱监督来增强更强模型。

## 2 相关工作

#### 可扩展监督与弱到强泛化。

可扩展监督旨在开发在人类难以完成的任务上监督 AI 系统的方法（Amodei 等人，2016 (https://arxiv.org/html/2606.00424#bib.bib37)；Bowman 等人，2022 (https://arxiv.org/html/2606.00424#bib.bib5)）。主要焦点一直在于设计人机协作协议，帮助人类更准确地评估 AI 输出，例如通过辩论和咨询（Irving 等人，2018 (https://arxiv.org/html/2606.00424#bib.bib38)；Kenton 等人，2024 (https://arxiv.org/html/2606.00424#bib.bib6)），以及通过批评辅助审查和证明者-验证者游戏来降低评估的认知负担（Saunders 等人，2022 (https://arxiv.org/html/2606.00424#bib.bib39)；McAleese 等人，2024 (https://arxiv.org/html/2606.00424#bib.bib16)；Kirchner 等人，2024 (https://arxiv.org/html/2606.00424#bib.bib40)）。相比之下，弱到强泛化（W2S）（Burns 等人，2023 (https://arxiv.org/html/2606.00424#bib.bib1)）探索了一个互补方向，设计学习算法，使强大的预训练模型能够从弱监督中正确泛化，仿佛它是在更高质量标签上训练的一样。越来越多的研究通过迭代标签细化、易到难奖励转移、弱 LLM 偏好标注、内部一致性激发以及推理的自一致性过滤来加强这种激发（Ye 等人，2025 (https://arxiv.org/html/2606.00424#bib.bib8)；Sun 等人，2024 (https://arxiv.org/html/2606.00424#bib.bib9)；Tao 和 Li，2024 (https://arxiv.org/html/2606.00424#bib.bib7)；Wen 等人，2025 (https://arxiv.org/html/2606.00424#bib.bib11)；Yang 等人，2024 (https://arxiv.org/html/2606.00424#bib.bib24)；Jin 等人，2024 (https://arxiv.org/html/2606.00424#bib.bib59)），推理时变体对比弱分布和强分布或使用弱步骤级分数指导解码（Li 等人，2023 (https://arxiv.org/html/2606.00424#bib.bib2)；Ding 等人，2025 (https://arxiv.org/html/2606.00424#bib.bib10)）。理论分析将 W2S 增益限定为强模型在弱标签上的失配程度，并描述了在扩展条件下的伪标签校正（Charikar 等人，2024 (https://arxiv.org/html/2606.00424#bib.bib22)；Lang 等人，2024 (https://arxiv.org/html/2606.00424#bib.bib23)），而 Yang 等人（2025b (https://arxiv.org/html/2606.00424#bib.bib25)）记录了一种失败模式：强模型在监督者知道的提示上通过弱监督，但在监督者不知道的地方仍然不对齐。我们的设定遵循 Burns 等人（2023 (https://arxiv.org/html/2606.00424#bib.bib1)）的 W2S 协议，但使用弱批评代替弱标签，并针对生成式推理而非分类。

#### LLM 对齐。

将 LLM 与人类偏好对齐最常通过基于人类反馈的强化学习实现（Christiano 等人，2017 (https://arxiv.org/html/2606.00424#bib.bib31)；Ouyang 等人，2022 (https://arxiv.org/html/2606.00424#bib.bib52)；Bai 等人，2022a (https://arxiv.org/html/2606.00424#bib.bib53)），该方法在偏好比较上训练奖励模型，并使用 PPO 优化策略（Schulman 等人，2017 (https://arxiv.org/html/2606.00424#bib.bib29)）；直接偏好方法绕过奖励模型，端到端地在偏好上训练（Rafailov 等人，2023 (https://arxiv.org/html/2606.00424#bib.bib30)）。由于人类监督成本高昂且难以扩展，另一条线用模型生成的信号替代或补充它：根据书面原则进行判断的 AI 反馈（Bai 等人，2022b (https://arxiv.org/html/2606.00424#bib.bib12)；Lee 等人，2024 (https://arxiv.org/html/2606.00424#bib.bib13)；Jin 等人，2026 (https://arxiv.org/html/2606.00424#bib.bib57)）、策略自身扮演评判角色的自我判断循环（Yuan 等人，2024 (https://arxiv.org/html/2606.00424#bib.bib14)；Wu 等人，2024 (https://arxiv.org/html/2606.00424#bib.bib15)），以及专门的批评模型，揭示策略或人类标注者可能遗漏的错误（McAleese 等人，2024 (https://arxiv.org/html/2606.00424#bib.bib16)；Ankner 等人，2024 (https://arxiv.org/html/2606.00424#bib.bib17)）。这些方法将监督者的信号作为训练目标。我们则将其视为批评，并且只使用那些能切实改进策略答案的批评。

#### LLM 推理。

激发 LLM 的推理能力一直由思维链提示及其推理时变体驱动，例如自一致性和树搜索解码（Wei 等人，2022 (https://arxiv.org/html/2606.00424#bib.bib26)；Wang 等人，2023 (https://arxiv.org/html/2606.00424#bib.bib33)；Yao 等人，2023 (https://arxiv.org/html/2606.00424#bib.bib34)）。自我改进方法在其成功轨迹上微调策略（Zelikman 等人，2024 (https://arxiv.org/html/2606.00424#bib.bib4)），或在步骤级正确性上训练过程验证器，以在难题上增密奖励（Lightman 等人，2024 (https://arxiv.org/html/2606.00424#bib.bib27)；Wang 等人，2024 (https://arxiv.org/html/2606.00424#bib.bib35)；Jin 等人，2025 (https://arxiv.org/html/2606.00424#bib.bib58)）。一个互补的线路教模型修改其输出，无论是在推理时通过口头反馈（Madaan 等人，2023 (https://arxiv.org/html/2606.00424#bib.bib18)；Shinn 等人，2023 (https://arxiv.org/html/2606.00424#bib.bib19)），还是在训练期间通过多轮强化学习（Kumar 等人，2024 (https://arxiv.org/html/2606.00424#bib.bib20)；Qu 等人，2024 (https://arxiv.org/html/2606.00424#bib.bib21)）。近期的大规模努力表明，在强大的基础模型上纯粹基于结果的强化学习能够大规模地引出长链式推理（DeepSeek-AI，2025 (https://arxiv.org/html/2606.00424#bib.bib36)），而在线蒸馏已转向学生侧损失，以匹配教师在其自身分布下的输出（Gu 等人，2023 (https://arxiv.org/html/2606.00424#bib.bib3)）。这些方法要么需要真实标签验证，要么假设批评者至少与策略一样强。

## 3 初步推理时研究

弱模型能否提供有用的批评来在推理时改进更强模型，是 Opcd 框架的基础。在本节中，我们进行初步研究以回答两个问题：

(i) 弱模型批评能否在超过简单采样更多回应的情况下提升强模型性能，并且这种效果是否在推理和对齐任务以及思考型和非思考型模型上都具有普适性？(ii) 批评的质量是否影响最终准确率？

#### 实验设定。

我们在非思考型和思考型模型上都评估了批评-修改范式。对于非思考型模型，我们使用 Phi-4-mini-instruct-3.8B（Abdin 等人，2024 (https://arxiv.org/html/2606.00424#bib.bib41)）作为弱模型，Phi-4-14B（Abdin 等人，2024 (https://arxiv.org/html/2606.00424#bib.bib41)）作为强模型。实验在 GPQA Diamond（Rein 等人，2023 (https://arxiv.org/html/2606.00424#bib.bib43)）推理任务和 IFEval（Zhou 等人，2023 (https://arxiv.org/html/2606.00424#bib.bib47)）指令遵循对齐任务上进行。对于思考型模型，我们使用 Qwen3-1.7B（Yang 等人，2025a (https://arxiv.org/html/2606.00424#bib.bib45)）作为弱模型，Qwen3-8B（Yang 等人，2025a (https://arxiv.org/html/2606.00424#bib.bib45)）作为强模型。两个模型均在开启思考模式的情况下在 AIME 2024（Art of Problem Solving，2024a (https://arxiv.org/html/2606.00424#bib.bib48),b (https://arxiv.org/html/2606.00424#bib.bib49)）和 AIME 2025（Art of Problem Solving，2025a (https://arxiv.org/html/2606.00424#bib.bib50),b (https://arxiv.org/html/2606.00424#bib.bib51)）上进行评估，共包含 60 个问题。此设定测试弱模型批评的有用性是否也适用于思考型模型。

对于每个问题，批评-修改流水线包含三个阶段，我们将其记为 S

弱批评者造就强学习者：面向可扩展监督的在线策略批评蒸馏

相似文章

在线策略蒸馏的多重面貌：陷阱、机制与解决方案

@louieworth: 新博客文章：On-Policy Distillation — 前景、陷阱与展望

过滤后重加权：重新思考在线策略蒸馏中的优化粒度

确定性的幻觉：解耦策略蒸馏中的能力与校准

基于评分细则的在策略蒸馏

提交意见反馈