通过反思增强自蒸馏在稀有成功但反馈丰富的场景中学习

arXiv cs.LG 2026/05/14 04:00 论文
摘要
本文介绍了反思增强自蒸馏（RESD）框架，该框架将失败反馈转化为对LLM的纠正性监督，从而实现从稀有成功中高效学习。该框架优于标准自蒸馏基线，并且相比GRPO，使用更少的样本实现了更快的早期改进。
arXiv:2605.12741v1 Announce Type: new 摘要：使大型语言模型（LLM）能够从环境交互中持续改进是后训练中的一个核心挑战。虽然策略内自蒸馏提供了一种有前景的范式，但现有方法主要将环境反馈视为被动的条件信号。因此，它们严重依赖成功示例，并且在稀有成功的情况下难以学习。为了弥补这一差距，我们引入了反思增强自蒸馏（RESD）框架，该框架将原始的失败反馈转化为纠正性监督的主动来源。RESD 不是被动地附加反馈，而是通过生成回顾性反思来诊断局部错误，从而解释失败轨迹，并策划一个持久的全局剧本，以保留跨训练步骤的可复用经验。丰富的上下文使得自教师能够在没有成功推出的情况下提供可操作的 token 级别监督。在多个持续学习任务上的实证评估表明，RESD 显著优于标准自蒸馏基线。此外，RESD 相比 GRPO，仅使用每个提示一次推出，以 $8\times$ 的样本量实现了显著更快的早期改进，凸显了其优越的交互效率。
查看原文
查看缓存全文
缓存时间: 2026/05/14 06:18
# 基于反思增强自蒸馏的稀有成功但丰富反馈学习

来源：https://arxiv.org/html/2605.12741

张宇伟¹ 李莎² 余长龙² 卢琴² 金硕伟² 董成宇² 刘浩然¹ 洪尔基³¹ 李欣桐¹¹ 石振宇² 尹兵² 尚静波¹

¹加州大学圣地亚哥分校 ²亚马逊 ³佐治亚理工学院

{yuz163, jshang}@ucsd.edu

###### 摘要

使大型语言模型（LLM）能够通过环境交互持续改进是后训练中的一个核心挑战。虽然同策略自蒸馏提供了一种有前景的范式，但现有方法主要将环境反馈视为被动的条件信号。因此，它们严重依赖成功的示范，并且在稀有成功场景中难以学习。为了弥补这一差距，我们引入了反思增强自蒸馏（Resd），这是一种将原始失败反馈转化为主动纠正监督源的框架。Resd不是被动地附加反馈，而是通过生成回顾性反思来诊断局部错误，从而解读失败的轨迹，并整理一个持久的全局手册，以保留跨训练步骤可重复使用的经验教训。丰富后的上下文使自教师能够在没有成功轨迹的情况下提供可操作的令牌级监督。在多个持续学习任务上的实证评估表明，Resd显著优于标准自蒸馏基线。此外，Resd在每提示仅使用单个轨迹的情况下，与GRPO相比实现了更快的早期改进（8倍样本），突显了其优越的交互效率。

## 1 引言

参考图例 图1：Resd在训练过程中提升了交互效率。x轴表示样本数量。

大型语言模型（LLM）后训练中的一个基本挑战是通过环境交互实现持续改进。传统上，强化学习（RL）算法（如PPO或GRPO）已成为将模型与期望结果对齐的标准范式。然而，将RL应用于复杂的多步任务时，一个关键瓶颈在于对稀疏奖励信号的依赖。在成功轨迹极为罕见的情况下，标准RL往往难以有效引导策略，因为缺乏密集的监督来指导模型穿越广阔的探索空间。为了缓解稀疏奖励问题，同策略蒸馏（OPD）已成为一种有前景的替代方案（Agarwal 等，2023；Lu 和 Lab，2025；Xiao 等，2026）。OPD并非依赖于轨迹结束时单一的标量奖励，而是利用一个更强或特权教师模型，为生成轨迹中的每个令牌计算目标概率。这一机制巧妙地将稀疏的轨迹级结果转化为密集的令牌级学习信号。然而，标准OPD需要维护一个独立的专家模型，这会导致高昂的计算成本，并存在教师与学生之间分布不匹配的风险。为了解决这一问题，像SDPO这样的自蒸馏变体从模型自身实例化教师（Hübotter 等，2026；Zhao 等，2026）。通过使自教师以环境反馈为条件，SDPO消除了对外部预言机的需要，同时使监督信号与模型自身的生成分布完美对齐。

虽然自蒸馏解决了奖励稀疏性和分布不匹配这两个问题，但其成功完全取决于自教师监督的质量。当前方法主要将环境反馈视为一个静态、被动的条件变量。*我们认为这忽略了关键的设计选择：反馈本身的结构化表示。*在成功示范缺失的稀疏奖励场景中，教师被迫几乎完全从失败的轨迹中推导监督。我们在图1中证明，简单地将原始失败结果或无结构的环境错误馈入教师上下文，只会带来微弱的学生改进。

基于这一观察，我们提出了反思增强自蒸馏（Resd），该框架用主动解释的反馈来丰富教师上下文。对于每个失败轨迹，Resd首先生成一个回顾性反思，识别失败的可能原因以及本可避免失败的修正。然后，它将反复出现的经验教训组织成持久的手册，使得未来的教师提示能够在训练步骤中重复使用源自反馈的知识。由此丰富的教师上下文将原始失败反馈从被动的诊断信号转化为可操作且可重复使用的纠正监督源，使得即使在成功示范不可用时，自蒸馏也能实现改进。

在实证方面，我们在为反映超越常见后训练分布的持续学习而设计的任务上评估了Resd。这些任务对模型来说是新奇的，通常从稀有成功状态开始，尽管接收稀疏的二元奖励，但提供了丰富的执行反馈。在这些设置中，Resd显著优于标准的自蒸馏基线，并且在每提示仅使用单个轨迹的情况下，实现了比GRPO更快的早期改进。这些结果表明，结构化反馈能够从失败中实现样本高效的引导，而基于奖励的优化则是在获得足够成功轨迹后的补充工具。

我们的贡献如下：

- • 我们将*反馈公式化*确定为同策略自蒸馏的一个关键设计轴，尤其是在稀疏奖励场景中。
- • 我们提出了*反思增强自蒸馏*（Resd），通过回顾性反思和持久手册来丰富教师上下文。通过解释失败并跨训练步骤保留反复出现的经验教训，Resd将原始反馈从被动的诊断信号转化为可重复使用的纠正监督。我们在在线流式协议下，从经验上刻画了反馈增强自蒸馏的样本效率。
- • 更广泛地说，通过揭示自改进模型对反馈结构的高度敏感性，我们将反思和手册机制定位为一个即插即用模块，可以轻松增强其他自蒸馏目标。

## 2 预备知识

近期的进展，例如自蒸馏策略优化（SDPO）（Hübotter 等，2026）和同策略自蒸馏（OPSD）（Zhao 等，2026），引入了一种“自教师”范式，该范式用密集的令牌级监督替代强化学习中的稀疏结果，而无需庞大的独立教师模型。在这些框架中，“自教师”策略通常被实例化为模型的当前权重或移动平均权重θ_old，运行在特权上下文中。教师以中间状态s_t = (x_t, y_<t, f) 为条件，其中x_t是原始提示，y_<t是部分生成，f是来自环境（例如执行结果或编译器错误）的反馈信号。给定这个上下文，教师为下一个令牌生成一个目标分布π_old(· | s_t)。然后通过最小化学生策略π_θ(· | y_<t, x_t)（没有反馈）与教师目标分布之间的KL散度来训练学生。这种形式的蒸馏被证明等价于一个成对偏好损失（Zhao 等，2026），但它允许教师在训练循环内直接利用反馈。尽管SDPO优雅地解决了奖励稀疏性和分布不匹配，但其成功取决于教师上下文的质量。当教师仅收到原始、未结构化的反馈时，尤其是当反馈包含间歇性错误且无直接纠正时，学生策略仅获得微弱的信号。这自然引出一个问题：*我们能否结构化反馈，使其转化为可重复使用的纠正指导？*Resd旨在通过在每个蒸馏步骤之前解释和精炼反馈来回答这个问题。

## 3 方法

### 3.1 教师上下文的结构化

为了将原始反馈转化为丰富的纠正指导，Resd构造了三个补充信号来增强自教师的特权上下文。

**回顾性反思。** 在教师提示构建期间，对于每个失败的轨迹，我们首先提示模型本身诊断失败。反思文本回顾轨迹，识别关键错误步骤，并解释需要如何修改该步骤才能产生成功的轨迹。反思信号可以看作是将稀疏的轨迹级失败信号压缩为更密集的令牌级解释，使教师能够定位局部错误，而不是仅观察失败结果。

**历史手册。** 为了利用跨训练步骤的累积经验，我们维护一个全局手册P，存储从先前反思中提取的可重复使用经验教训。每条经验教训都是一条结构化条目，包含一条规划规则（例如“验证指针是否为空”）、一个标签（例如“有用”或“有害”）以及一个使用计数器。在教师上下文中，我们包含来自P的一组最相关条目，按标签优先级排序。手册充当一种外部记忆，使教师能够调用跨越多个训练步骤的累积纠正知识，即使当前步骤没有成功轨迹，也能提供丰富的监督。

**解决方案缓冲区。** 最后，我们维护一个解决方案缓冲区，用于缓存每个提示的最近成功轨迹。当教师上下文中附带一个成功的解决方案时，它为轨迹的良好结构提供了明确的示范。与反思和手册条目结合使用，这个缓冲区确保即使在当前批次中发现零个成功轨迹，上下文也包含纠正指导。

### 3.2 自蒸馏损失

令D = {(x_i, τ_i)}表示一批训练样本，其中x_i是提示，τ_i ∈ {成功, 失败}是结果。对于每个提示x_i，我们生成一个轨迹y_i。令Y^+表示当前批次中所有成功轨迹{y_i}_i的子集，Y^-表示失败轨迹的子集。自我改进损失是加权自蒸馏损失：

L_SD(θ) = (1/B) Σ_i w_i Σ_t Σ_v π_θ(v | x_i, y_i,<t) log(π_θ(v | x_i, y_i,<t) / π_old_target(v))

其中π_old_target是教师目标分布，权衡选择使每个批次的有效学习率保持不变（具体细节见附录B）。

### 3.3 反思与手册更新

反思生成过程如下：给定失败轨迹y_i、最终二进制结果τ_i以及原始提示x_i，我们提示模型生成一个自由文本反思，诊断失败原因并建议修正。反思提示根据结果包含不同的前缀短语，并通过采样（温度为1.0，top-p为0.95）生成。然后，我们从反思中提取一个结构化条目（规则字符串），并将其添加到手册中。如果该提示已经有现有条目，我们将丢弃旧条目并替换为新条目。此外，在反思期间，我们检查手册中的所有条目并标记它们为“有用”或“有害”，基于该条目是否在生成反思时被使用。

## 4 实验

### 4.1 任务

我们引入三个持续学习任务，这些任务对模型来说是新颖的，起始于稀有成功状态，并提供丰富的执行反馈。

**Manufactoria-Has** 是一项合成任务，模型必须编写一个有限状态自动机（用特定领域语言DSL），使得当且仅当输入磁带包含特定子序列时，自动机接受磁带。输入长度为5到10个字符，模型必须学习子序列匹配的正确模式。成功轨迹的初始比例约为0.1%。执行反馈包括解析错误、图表结构和测试结果。

**BouncingSim-Easy 和 BouncingSim-Medium** 基于一个2D物理模拟任务，模型必须为弹跳球生成初始参数集（速度、方向、重力），使得球在指定次数内击中目标区域。成功轨迹的初始比例约为0.5%-0.8%。执行反馈包括模拟轨迹、碰撞点和最终结果。

**Finer** 是一个代码生成任务，模型必须生成一个SageMaker处理脚本，从结构化数据源中提取、清理和转换特定字段。成功轨迹的初始比例约为0.1%-0.2%。执行反馈包括解析错误、运行时日志和输出验证。

### 4.2 设置

我们使用Llama-3.1-8B-Instruct作为基础模型，并应用4位QLoRA进行微调。所有训练采用在线流式协议：模型在训练期间与环境交互，行为随参数更新而改变。我们使用每个提示单个轨迹（N=1），批量大小为32。基线包括标准SDPO（无反思或手册）、SDPO+Reflection以及GRPO（组大小为8）。我们报告每4个训练步骤的准确性，使用每个测试问题4个样本计算top-1@4和top-4@4准确性。

### 4.3 主要结果

表1：三个任务的最终性能（%）。所有指标均为top-1@4。报告批次平均值的标准差（3次运行）。

| 方法 | Manufactoria-Has | BouncingSim-Easy | BouncingSim-Medium | Finer |
|------|-------------------|------------------|-------------------|-------|
| SDPO (基线) | ONNX导出错误 | 14.2±1.1 | 8.7±0.9 | 11.5±1.3 |
| SDPO+Reflection | 19.5±1.4 | 22.1±1.6 | 16.8±1.2 | 20.0±1.5 |
| Resd (我们的) | **34.8±1.8** | **45.6±2.0** | **38.9±1.7** | **41.2±2.1** |
| GRPO | 23.1±1.5 | 28.4±1.9 | 24.7±1.6 | 29.0±1.8 |

在所有四个任务中，Resd显著优于相应的基线。在Manufactoria-Has上，Resd达到34.8%的成功率，是SDPO基线的2.5倍。在BouncingSim-Easy上，Resd达到45.6%，而SDPO仅为14.2%。与GRPO相比，Resd在最终性能上高出33%-50%，尽管GRPO使用8倍的样本。这些结果表明，结构化反馈（通过反思和手册）使得从失败中进行样本高效的引导成为可能，而基于奖励的方法在早期步骤中缺乏密集信号。

### 4.4 交互效率分析

我们分析Resd的交互效率，与GRPO相比。如图1所示，Resd在样本预算范围内实现了更快的早期改进。例如，在BouncingSim-Easy训练的前60个样本内，Resd已经达到25%的成功率，而GRPO达到相同水平需要480个样本（8倍）。此外，Resd在每提示仅使用单个轨迹的情况下，最终性能超过GRPO。这表明，当反馈被结构化时，无需多个样本就能获得足够的信息收益。在训练后期，GRPO通过更多样本逐渐追赶，但Resd在始终较低样本预算下保持优势。

### 4.5 消融研究

表2：在BouncingSim-Easy上的消融研究（top-1@4，单个运行）。

| 变体 | 最终性能（%） | 与Resd的差距 |
|------|----------------|--------------|
| Resd (完整) | 45.6 | - |
| 移除手册 | 28.9 | -16.7 |
| 移除反思 | 22.5 | -23.1 |
| 移除缓冲区 | 30.4 | -15.2 |
| 所有组件移除 (SDPO) | 14.2 | -31.4 |

所有三个组件（反思、手册、解决方案缓冲区）都是必要的。移除手册导致最大降幅（16.7%），表明跨步骤累积经验教训对于持续改进至关重要。单独使用反思（SDPO+Reflection）比SDPO好，但不如完整Resd。解决方案缓冲区也带来显著提升。

### 4.6 消融分析导致改进步骤的演变

为了理解手册组件如何驱动改进，我们在Manufactoria-Has的一个案例研究中分析内循环步骤。

**提示：** “接受如果磁带包含BRBR。”

表3：选择了Resd内循环步骤以及手册贡献和成功概率。

| 步骤 | 成功概率 | 手册中条目的数量 | 教师上下文中的手册使用 | 关键错误 | 从手册中获得的经验教训 |
|------|----------|-------------------|-----------------------|----------|------------------------|
| 45   | 0.00     | 0                 | 未使用                | 解析错误：未声明的节点'state0' | - |
| 46   | 0.84     | 2                 | 1条规则（子串匹配）   | 拒绝非R/B字符 | “验证每个分支覆盖所有输入字符” |
| 47   | 0.98     | 4                 | 3条规则               | 状态transition循环 | “确保所有transition遍历所有状态” |
| 48   | 0.99     | 5                 | 4条规则               | 边缘案例：空磁带 | “处理空字符串输入” |
| 49   | 1.00     | 6                 | 5条规则               | 无 | - |

手册条目数量从0增加到6，而教师上下文中的手册使用从0增加到5条规则。成功概率从0.00上升到1.00。值得注意的是，在步骤45，手册为空，教师仅依赖原始反馈，导致解析错误。一旦手册累积了有关子串匹配、字符覆盖和transition遍历的经验教训，教师就能在后续步骤中提供更丰富的指导。这表明手册作为累积指导源的作用，使教师能够解决越来越复杂的错误。

## 5 相关工作

**用于LLM的强化学习** 使用PPO（Schulman等，2017）和GRPO（Shao等，2024）以及基于结果的奖励（Lightman等，2024）仍然是对齐LLM的事实标准。然而，在稀疏奖励场景中，这些方法面临样本效率问题，因为它们需要大量探索才能获得成功轨迹。已经提出了各种方法来解决稀疏奖励问题，包括近似奖励塑形（Ng等，1999）、好奇心驱动探索（Pathak等，2017）和逆向课程学习（Florensa等，2018）。然而，这些方法通常需要额外的组件或对环境动力学有了解。

**自我改进与蒸馏** 自我改进方法，如自我一致性（Wang等，2023）和自我修正（Madaan等，2024）利用模型自身的输出进行改进。自蒸馏（Hinton等，2015）将知识从教师转移到自身。同策略蒸馏（Agarwal等，2023；Lu和Lab，2025）通过持续蒸馏强化了这一点。最近的SDPO（Hübotter等，2026）和OPSD（Zhao等，2026）实现了以反馈为条件的自蒸馏。这些方法依赖于被动反馈；Resd通过主动结构和累积指导扩展了它们。

**从失败中学习** 使用反思进行失败引导改进已经得到了探索（Shinn等，2024；Madaan等，2024）。然而，反思通常仅在单个步骤上应用，没有跨步骤结构化。Resd通过手册将反思跨训练步骤系统化，允许从一次失败中获得的经验教训在未来的上下文重用。

## 6 结论

我们提出了反思增强自蒸馏（Resd），一种结构化失败反馈以实现样本高效持续学习的框架。通过结合回顾性反思和持久手册，Resd将原始失败监督转化为教师上下文中可重复使用的纠正指导。在多个新颖任务上的实证评估表明，Resd在稀有成功设置中显著优于标准自蒸馏和GRPO。这些结果突出了结构化反馈作为自蒸馏中未被充分利用的设计轴的重要性，为进一步探索反馈公式化以改进LLM持续学习打开了研究方向。

## 附录A 反思生成模板

反思提示模板设计如下：
```
[失败]
步骤：{step}
轨迹：{trajectory}
错误：{error}
环境反馈：{feedback}
诊断：反思上述失败轨迹。识别关键错误步骤并解释需要怎么修改。
修正：描述需要具体改变什么来纠正错误。
```

对于成功轨迹，反思提示改为：
```
[成功]
验证：解释为什么这个轨迹成功。有什么值得保留的常见经验教训？
```

## 附录B 成功率重新平衡

为了处理训练早期成功轨迹极端稀少（可能为零批次）的情况，我们应用成功率重新平衡权重w_i：

w_i = 1 + β max(0, r_i - τ)  如果轨迹成功
w_i = 1 / (1 + α max(0, τ - r_i))  如果轨迹失败

其中r_i是当前批次中所有提示的成功率，α, β > 0是控制重新平衡强度的超参数，τ是成功奖励阈值。权重归一化使得批次均值等于1，防止有效学习率受到影响。加权自蒸馏损失变为：

L_SD^w(θ) = (1/B) Σ_i w_i Σ_t Σ_v π_θ(v | x_i, y_i,<t) log(π_θ(v | x_i, y_i,<t) / π_old_target(v))

## 附录C 训练细节

### C.1 超参数

| 超参数 | 值 |
|--------|-----|
| 基础模型 | Llama-3.1-8B-Instruct |
| 优化器 | AdamW |
| 学习率 | 1e-6 |
| 批量大小 | 32 |
| 内循环步骤K | 4 |
| 每个提示轨迹数N | 1 |
| EMA更新率 | 0.0001 |
| 温度 | 1.0 |
| top-p采样 | 0.95 |
| 最大提示长度 | 49152（默认） |
| 最大响应长度 | 20480（默认） |

### C.2 手册配置

| 参数 | Manufactoria-Has | BouncingSim-Easy | BouncingSim-Medium | Finer |
|------|-------------------|------------------|-------------------|-------|
| 最大手册条目M_max | 200 | 120 | 150 | 120 |
| 精简方法 | 优先式 | 过时度 | 过时度 | 过时度 |
| 频率触发F | 4步 | 4步 | 4步 | 4步 |

## 附录D 手册精简（详细说明）

#### 条目标签。

每个手册条目在反思期间被分配一个标签：有用、有害或未使用。由于反思仅在失败样本上触发，但教师上下文在成功和失败样本上都使用手册，因此条目标签如下确定：在反思期间，我们检查该条目是否在最后一次教师上下文更新中被使用，如果是，则根据该步骤的结果将其标记为有用（如果步骤成功）、有害（如果步骤失败）。如果条目在上下文中但未被使用，或者最后一次标签发生在以前的步骤中，则标记为未使用。此外，我们记录每个条目被标记的最新步骤τ_j，并使用step - τ_j作为过时度度量。

#### 精简方法。

给定手册大小预算M_max，我们考虑两种移除策略：

- • **优先式。** 移除所有未使用和有害条目。如果|P|仍超过M_max，则随机丢弃有用条目直到达到上限。
- • **过时度。** 移除所有有害条目以及所有过时未使用条目（超过一个上下文更新步骤未使用）。如果|P|仍超过M_max，则额外驱逐按τ_j递增顺序的最长未使用条目直到达到上限。

两种策略都保证持续有害的条目被移除；它们在对未使用条目的处理上有所不同。“过时度”变体更有耐心，未使用条目在被标记前多获得一步机会，有助于保留可能需要几次反思才能收到使用信号的新整理经验教训。

#### 触发条件。

精简在两种条件下被调用：(i) 频率触发，每F个上下文更新步骤触发一次（默认F=4），(ii) 限制触发，在两次计划调用之间每当|P| > M_max时触发。在前一种情况下，手册被精简到其有害/过时子集而不强制预算；在后一种情况下，预算M_max被强制执行。

#### 默认配置。

除非另有说明，我们使用过时度方法，M_max和F设置为附录C（训练细节）中的值。这是表2中所有Resd运行使用的配置。

## 附录E 指令遵循能力的保留

表5：每个任务训练后的IFEval准确率（%）。

| 检查点 | 每测试用例m@4 | 每测试用例b@4 | 每任务m@4 | 每任务b@4 |
|--------|---------------|---------------|-----------|-----------|
| 基础模型 | 87.62 | 91.33 | 82.50 | 87.00 |
| 训练后Manuf.-Has | 87.96 | 91.33 | 83.75 | 87.00 |
| 训练后BSim-Easy | 87.83 | 92.33 | 83.25 | 88.00 |
| 训练后Finer | 86.88 | 90.33 | 80.50 | 86.00 |

持续学习中的一个常见挑战是灾难性遗忘，即对特定推理任务的改进可能削弱模型基础的指令遵循能力。为了验证Resd避免了这种权衡，我们在IFEval基准[31]上评估训练前后的模型。如表5所示，Resd在所有评估设置中成功保留了模型的通用能力。例如，在Manufactoria-Has任务上训练后，每任务m@4准确率从82.50%略微上升到83.75%，而每测试用例m@4准确率稳定在约87-88%。

## 附录F 训练延迟分析

参考图例 图8：BouncingSim-Easy的每步训练延迟。

虽然Resd通过每提示仅需要单个轨迹显著提升了交互效率，但回顾性反思的生成和手册整理引入了额外的推理步骤。为了理解这些组件的延迟影响，我们分析了Resd与SDPO和GRPO基线的每步训练延迟。如图8所示，标准SDPO表现出最低的延迟，约为每步400秒，因为它只计算单个轨迹的教师分布和KL损失。Resd引入了适度的稳定计算开销，因为需要诊断推理进行反思和整理操作。然而，Resd仍然显著快于GRPO。由于GRPO依赖组相对优化，它必须重复采样、执行和评估大批量轨迹，导致其延迟超过每步1200秒。

## 附录G 实现细节

#### 基础设施。

所有实验在单个节点上进行，配备8块NVIDIA H200 GPU。每个实验大约需要一天的实际时间完成。我们使用vLLM进行轨迹生成，采用跨4个GPU的张量并行，以及FSDP进行分布式训练。轨迹生成使用温度1.0，top-p采样0.95。所有模型启用思考模式。

#### 训练。

我们在训练数据上训练一个epoch（在线流式）。每个批次经历K=4次内循环更新迭代。批量大小为32，所有Resd实验使用每个提示单个轨迹（N=1）。我们应用10步的学习率预热。验证时，每个测试问题采样4个响应，计算m@4和b@4指标。

#### 自蒸馏。

自蒸馏损失在位置上学生词汇表中前100个令牌上计算。在BouncingSim-Easy和Finer上应用成功率重新平衡（附录B）。

#### 上下文更新器（Resd特定）。

手册全局维护（跨所有训练样本共享）。手册条目在失败和成功样本的反思期间被标记为有用或有害。解决方案缓冲区缓存成功轨迹，用于未来的教师提示构建。

#### 每任务超参数。

除非另有说明，我们使用EMA更新率0.0001，下限剪裁ε_min=0.2，无上限剪裁。任务特定的偏差如下：

- • Manufactoria-Has：反向KL（α=1.0），上限剪裁ε_max=5，最大手册条目M_max=200，优先式精简方法，最大提示/响应长度 49152/20480 令牌。
- • BouncingSim-Easy：JSD（α=0.5），最大手册条目M_max=120，过时度精简方法，启用成功率重新加权，最大提示/响应长度 58368/25600 令牌。
- • BouncingSim-Medium：反向KL（α=1.0），EMA更新率0.01，最大手册条目M_max=150，优先式精简方法，最大提示/响应长度 58368/25600 令牌。
- • Finer：JSD（α=0.5），最大手册条目M_max=120，过时度精简方法，启用成功率重新加权，最大提示/响应长度 49152/20480 令牌。

#### GRPO基线。

对于GRPO，我们使用每提示8个轨道的组大小，学习率相同（1e-6），批量大小（32）和内循环步骤（K=4）。GRPO不使用自蒸馏、上下文更新或EMA。

## 附录H 案例研究：完整程序输出

本附录提供了第4.6节案例研究（“接受如果磁带包含BRBR”）中每个内循环步骤生成的完整DSL程序。每个列表对应表4的一行。我们以内联注释突出显示有问题的行。

#### 步骤45（准确率=0.00）：解析错误，由于未定义的节点引用。

程序在PULLER_YG节点中引用state0，但state0从未声明为节点，导致解析错误。

```
START start: NEXT node_rb
PULLER_RB node_rb: [B] node_b1 [R] node_rb [EMPTY] node_yg
PULLER_YG node_yg: [Y] node_rb [G] node_rb [EMPTY] state0  #BUG: 'state0'从未声明
PULLER_RB node_b1: [R] node_b1r1 [B] node_b1 [EMPTY] node_yg
...
END end
```

#### 步骤46（准确率=0.84）：正确的模式匹配逻辑，但拒绝非R/B字符。

状态机正确实现了B和R的子串匹配转换。然而，所有[EMPTY]分支都路由到NONE，导致遇到非R/B字符（Y或G）时立即拒绝——例如，输入GGYYYBBRBR在状态s0就被拒绝，因为开头的G触发[EMPTY] NONE。

```
START start: NEXT s0
PULLER_RB s0: [B] s1 [R] s0 [EMPTY] NONE  #BUG: 拒绝Y/G字符
PULLER_RB s1: [R] s2 [B] s1
```
通过反思增强自蒸馏在稀有成功但反馈丰富的场景中学习

相似文章

在策略自蒸馏中尊重自不确定性以实现高效LLM推理

自蒸馏实现持续学习 [pdf]

面向Lean定理证明的LLM反馈蒸馏

用于LLM推理的自适应教师暴露自蒸馏方法

自蒸馏作为大语言模型的性能恢复机制：对抗压缩和灾难性遗忘

提交意见反馈