RASFT:面向推理的滚动自适应监督微调

arXiv cs.LG 论文

摘要

RASFT是一种新颖的大型语言模型监督微调框架,它根据模型自身的推理能力调整专家监督,在数学和代码推理基准测试中相比标准SFT和强化学习方法取得了更好的性能。

arXiv:2606.07006v1 Announce Type: new Abstract: 监督微调(SFT)是一种通过模仿离线专家演示来使大型语言模型适应推理任务的流行方法,通常将单个专家轨迹视为目标行为。然而,推理并非简单的路径模仿:严格遵循一个演示解决方案可能会过度拟合表面形式,并抑制模型自身的推理分布。我们提出滚动自适应监督微调(RASFT),这是一种策略感知的SFT框架,根据从验证过的同策略滚动中估计的问题级可解性来校准专家监督。对于每个问题,当当前策略遇到困难时,RASFT会加强专家指导;而当模型已表现出可靠的推理行为时,则放松严格模仿并纳入正确的自我生成轨迹。为了保留有用的推理先验,RASFT进一步引入了冻结参考模型与当前策略之间的截断逆比率,以约束过度的策略漂移。在六个数学推理基准测试和两个代码推理基准测试上对多个模型进行的实验表明,RASFT在整体性能上优于SFT、SFT变体以及代表性的强化学习方法。代码可在 https://github.com/zjd1sq/RASFT 获取。
查看原文
查看缓存全文

缓存时间: 2026/06/08 09:20

# RASFT:面向推理的自适应 rollout 监督微调

来源:https://arxiv.org/html/2606.07006

杨永亮¹,\*,刘丰源¹,\*,施炜²,刘延光³,孙飞⁴,邹娜²,杜梦楠¹,†

¹香港中文大学(深圳)
²上海人工智能实验室
³新泽西理工学院
⁴中国科学院计算技术研究所

[email protected], [email protected]

\*同等贡献。†通讯作者。

###### 摘要

监督微调(SFT)是通过模仿离线专家演示将大型语言模型适配到推理任务的主流方法,通常将单个专家轨迹视为目标行为。然而,推理并非简单的路径模仿:严格遵循单一的演示解决方案可能导致过拟合表面形式,并抑制模型自身的推理分布。我们提出**自适应 Rollout 监督微调**(RASFT),这是一种策略感知的 SFT 框架,它根据从验证过的在线策略 rollout 中估计的问题级可解性来校准专家监督。对于每个问题,当当前策略难以解决时,RASFT 会加强专家指导;而当模型已展现出可靠的推理行为时,则放松严格的模仿并纳入正确的自生成轨迹。为保留有用的推理先验,RASFT 进一步引入冻结参考模型与当前策略之间的裁剪逆比率,以约束过度的策略漂移。在六个数学推理基准和两个代码推理基准上,使用多个模型进行的实验表明,RASFT 在整体性能上优于标准 SFT、SFT 变体以及代表性的强化学习方法。代码可在 https://github.com/zjd1sq/RASFT 获取。

---

**RASFT:面向推理的自适应 Rollout 监督微调**

杨永亮¹,\*,刘丰源¹,\*,施炜²,刘延光³,孙飞⁴,邹娜²,杜梦楠¹,†

¹香港中文大学(深圳)
²上海人工智能实验室
³新泽西理工学院
⁴中国科学院计算技术研究所

[email protected], [email protected]

\*同等贡献。†通讯作者。

## 1 引言

监督微调(SFT)已被广泛用于将大型语言模型(LLM)适配到推理领域 (Ouyang et al., 2022; Chung et al., 2024; Mukherjee et al., 2023; Yue et al., 2023)。标准 SFT 依赖于离线专家演示,并隐含地假设专家轨迹是需要模仿的目标 (Ouyang et al., 2022; Wang et al., 2023; Zhou et al., 2023)。然而,推理并非简单的模仿:一个问题通常可以通过多种有效路径解决,而离线专家响应只呈现了一条可能的推理轨迹 (Wei et al., 2022; Zelikman et al., 2022; Yuan et al., 2023)。同时,预训练的 LLM 可能已经具备了丰富的潜在推理分布 (Zelikman et al., 2022; Mukherjee et al., 2023)。如果微调过度遵循单一的专家轨迹,模型可能会适配演示的表面形式,从而削弱其原有的推理分布并限制其自身推理能力的激活 (Chu et al., 2025; Mukherjee et al., 2023)。

这一局限性促使近期 SFT 变体重新思考应该如何优化专家演示。DFT (Wu et al., 2026) 根据模型的置信度重新调整学习信号,从而削弱了均匀的逐令牌模仿。ASFT (Zhu et al., 2026) 进一步将该优化锚定到参考模型,以提高稳定性并减少分布漂移。ProFiT (Liu et al., 2026) 通过强调专家响应中高价值的监督信号来减少不必要的拟合。这些方法在令牌或目标层面上使 SFT 不再那么盲目模仿,但其自适应性主要仍局限于演示内部,而非策略感知:专家轨迹仍然被优化为默认目标,导致目标无法区分何时专家模仿提供了必要的纠正,何时又变成了对当前策略的僵化路径拟合。

这促使我们在推理领域采取一种策略自适应的 SFT 视角:**专家演示应充当问题级的指导,其强度应由当前策略解决每个问题的能力来校准,而非仅由离线轨迹内的信号决定**。因此,挑战在于如何针对当前策略下的每个问题确定专家监督的角色。当模型仍有困难时,专家轨迹应提供更强的纠正指导;当模型已展现出可靠推理行为时,对同一专家路径的僵化模仿就变得不那么必要。因此,有效的 SFT 应超越静态的演示拟合,根据策略依赖的问题难度调整专家监督,同时避免不必要地抑制模型自身的推理分布。

为此,我们提出**自适应 Rollout 监督微调**(RASFT),这是一种策略感知的 SFT 框架,它利用当前模型的 rollout 行为来调整专家监督。对于每个问题,RASFT 构建一个局部候选池,包含离线专家轨迹和当前模型生成的已验证正确的轨迹。它从模型生成的 rollouts 的成功率中估计一个问题级的可解性分数,该分数反映了当前策略解决该问题的能力。基于这个分数,RASFT 在困难问题上增加专家演示的影响力,并在模型已展现出可靠推理行为时减弱其影响。此外,为了保守地激活模型的推理能力,而非通过过度模仿将其覆盖,RASFT 引入了冻结参考模型与当前策略之间的逆比率,以约束过度的策略漂移。

实验表明,RASFT 在数学和代码推理任务上始终优于 SFT 风格的基线。它在 Qwen2.5-Math-1.5B 的数学推理上取得了 10.9% 的相对提升(25.00→27.72),在 Llama-3.2-3B 的代码生成上提升高达 26.9%(24.93→31.63),这表明 rollout 自适应监督带来的益处超越了更强的演示拟合。与 GRPO (Shao et al., 2024) 相比,RASFT 进一步将平均数学准确率提高了 15.9%(20.25→23.47),突显了结合专家指导与 rollout 自适应机制的有效性。

我们的主要贡献总结如下:

- • 我们指出现有 SFT 变体在推理中的一个关键局限性:其自适应性主要作用于离线专家演示内部,而非根据当前策略的问题级能力来校准专家监督。
- • 我们提出 RASFT,一个 rollout 自适应 SFT 框架,利用已验证的在线策略 rollouts 来估计问题可解性,并动态平衡专家指导与自生成正确推理轨迹。
- • 在数学和代码推理任务上的广泛实验表明,RASFT 在多个模型上优于 SFT 风格的基线,消融实验和强化学习比较进一步证实了其有效性和鲁棒性。

## 2 方法

参见图注

图 1:RASFT 流程图。(a) 对每个提示,策略模型 π_θ 采样多个 rollouts,这些 rollouts 经过验证,并与离线专家轨迹合并。(b) 基于 rollout 的可解性 ζ_i,自适应地校准专家和 rollout 轨迹的权重。(c) RASFT 通过优化候选轨迹并采用复合权重(结合归一化轨迹权重、逆策略比率和令牌概率)来更新策略模型 π_θ。

### 2.1 预备知识

我们考虑推理任务的监督后训练。令 D_off = { (x_i, y_i^e) }_{i=1}^N 表示一个离线推理数据集,其中 x_i 是问题提示,y_i^e 是专家编写的推理轨迹。由参数 θ 参数化的语言模型定义了一个自回归策略 π_θ(y|x) = ∏_{t=1}^{|y|} π_θ(y_t | x, y_{<t})。标准 SFT 通过最小化负对数似然来最大化专家轨迹 y_i^e 下的概率:

L_SFT(θ) = −E_{(x, y^e)∼D_off} [log π_θ(y^e | x)].

然而,这种严格的模仿可能无法有效利用模型自身的推理能力——尤其是在前期已有一定潜力的领域。近期工作通过引入自适应目标来解决这一局限性。ASFT (Zhu et al., 2026) 将 SFT 损失锚定到冻结的参考模型 π_ref,以稳定训练。对于每个令牌 t,ASFT 定义了一个组合损失,该损失在参考模型和当前模型之间进行插值,并带有信任衰减系数 λ:

L_ASFT(θ) = −E_{(x, y^e)∼D_off} [Σ_t (w_high * λ^t * log π_θ(y_t^e | x, y_{<t}^e) + (1−λ) * ( ... ) ... )].

这个框架通过依赖参考模型来约束策略漂移,从而改进了标准 SFT。然而,其自适应权重 λ^t 是预先定义的,并未利用当前策略 π_θ 在实际问题响应中的行为。问题的难度因模型状态而异:一个模型可能在某个问题上产生高正确率,而在其他问题上却经常失败。因此,自适应的 SFT 应该能够感知政策:它应该根据模型当前的表现,而不是仅仅通过固定的演示公式,来调整专家监督。这将我们引向下一节提出的基于策略 rollouts 的自适应框架。

### 2.2 RASFT:自适应 Rollout 监督微调

在本节中,我们介绍 RASFT,它通过当前策略模型的 rollout 行为来校准专家监督。核心思想是:对于每个问题 i ,专家演示和模型自生成的正确轨迹都被视为有用的监督信号。问题 e 的专家轨迹(y_i^e)提供外部指导,尤其是在模型初期难以解决问题时;而自生成的正确轨迹(y_i^{s,m})则反映并强化模型现有的推理能力。RASFT 根据当前策略可解决每个问题的预期能力动态平衡这两者。

#### 2.2.1 构建局部候选池

对于批次中的每个问题 x_i (i = 1, ..., N),我们给定:
- 专家轨迹 y_i^e;
- 当前模型通过策略 π_θ(⋅|x_i) 采样得到的 M 个 rollouts [y_i^{s,1}, ..., y_i^{s,M}]。

我们收集所有通过自动验证器(例如,数学题的最终答案匹配,代码题的执行测试)的 rollouts。过滤后,我们将专家轨迹和验证正确的自生成轨迹组合成一个局部候选池 C_i。

如果某个问题没有自生成的正确轨迹,则池 C_i 仅包含专家轨迹,并且我们将其权重设为 1,相当于标准 SFT。相反,如果问题被频繁正确解决,则 RASFT 利用自生成的轨迹来加强模型已有的推理模式。

#### 2.2.2 基于 Rollout 的可解性

令 λ_i 为当前策略正确解决问题 x_i 的估计能力。由于奖励稀疏且模型可能偶尔通过错误推理产生正确答案,我们通过语义上不同且推理健全的 rollouts 的比例来衡量策略的稳健性。具体来说,我们计算:

ζ_i = count(C_i) / M   (公式 1)

其中 count(C_i) 是验证正确的 rollouts 的数量(每问题最多 5 个)。这个分数 ζ_i ∈ [0,1] 反映了当前模型对 x_i 的掌握程度:ζ_i → 1 表示模型经常正确解决,因此专家指导可以减弱;ζ_i → 0 表示模型仍很困难,因此应加强专家监督。

#### 2.2.3 自适应轨迹加权

基于可解性 ζ_i,我们为候选池中的每条轨迹定义一个轨迹级权重 w_i^j。

对于专家轨迹 y_i^e:

w_i^e = α · (1 − ζ_i) + (1 − α) · γ   (公式 2)

其中 α ∈ [0,1] 是混合系数,γ 约束专家权重的下限(例如,γ = 0.2)。当模型困难时(ζ_i 小),权重较高;当模型熟练时(ζ_i 大),权重较低,但仍保留一个最小值以保留先验知识。

对于第 m 个自生成的正确轨迹 y_i^{s,m}:

w_i^{s,m} = (1 − α) · ζ_i   (公式 3)

所有的 w_i^j 随后通过除以池中所有轨迹的权重和进行归一化,得到 w̄_i^j = w_i^j / Σ_{j∈C_i} w_i^j。

#### 2.2.4 结合策略比率进行稳定约束

受 ASFT (Zhu et al., 2026) 的启发,我们引入策略比率约束以防止过度的策略漂移。对于候选池 C_i 中的每条轨迹,我们定义一个组合权重 u_i^j(t),它结合了轨迹权重 w̄_i^j 和令牌级的策略比率:

u_i^j(t) = w̄_i^j · π_θ(y_t^j | x_i, y_{<t}^j) / π_ref(y_t^j | x_i, y_{<t}^j)   (公式 4)

其中 π_ref 是冻结的参考模型。在第一次遇到问题时,当模型需要学习时,较高的 w̄_i^j 加强了学习,而策略比率则根据模型相对于参考点的熟悉程度调节梯度:如果轨迹对模型来说已经是自然的(高比率),则梯度被放大;如果轨迹是推离模型分布的,则梯度被减弱。

#### 2.2.5 最终目标

RASFT 的整体训练目标是在所有问题 i 上最大化累积对数概率,并由组合权重 u_i^j(t) 调节:

L_RASFT(θ) = Σ_i Σ_{j∈C_i} Σ_t [u_i^j(t) · log π_θ(y_t^j | x_i, y_{<t}^j)]   (公式 5)

直观地理解:对于每个问题,模型从专家轨迹和自生成的正确 rollouts 中学习,其强度由当前的 rollout 性能决定。当模型困难时,它更紧密地跟随专家;当它已经能解决时,它会通过自己的正确路径强化自己,同时保留对专家知识的温和记忆。策略比率有助于防止过度自信的漂移。

**训练算法(单步)**
输入:问题批次 B_off,策略 π_θ,参考模型 π_ref,采样数量 M
1.  对于每个 x_i ∈ B_off:
    a. 通过 π_θ(⋅|x_i) 采样 M 个 rollouts。
    b. 通过自动验证器验证 rollouts。
    c. 收集验证正确的 rollouts 作为 C_i(包括专家轨迹)。
    d. 计算 ζ_i = |C_i| / M。
    e. 对于 C_i 中的每条轨迹 j:根据公式 2、3 计算 w_i^j,然后归一化得到 w̄_i^j。
2.  对于每个批次中的令牌,根据公式 4 计算组合权重 u_i^j(t)。
3.  根据公式 5 更新 π_θ。

### 2.3 RASFT 与相关方法比较

表 1 从不同维度比较了 RASFT 与代表性方法。

表 1:方法比较

| 方法 | 数据 | 策略感知 | 自生成数据 | 保护参考模型 |
|-------|------|----------|--------------|-----------------|
| SFT (Ouyang et al., 2022) | 离线 | ✗ | ✗ | ✗ |
| DFT (Wu et al., 2026) | 离线 | 部分¹ | ✗ | ✗ |
| ASFT (Zhu et al., 2026) | 离线 | ✗ | ✗ | ✓ (显式) |
| ProFiT (Liu et al., 2026) | 离线 | 部分² | ✗ | ✗ |
| SPIN (Chen et al., 2024) | 在线+离线 | ✓ | ✓ (自我对弈) | ✗ |
| ReST-EM (Singh et al., 2023) | 在线+离线 | ✓ | ✓ (过滤) | ✗ |
| RASFT (本文) | 离线+在线策略 | ✓ (rollout 自适应) | ✓ (验证正确的 rollout) | ✓ (策略比率) |

¹:DFT 利用模型置信度在令牌级别进行调整,但在问题级别上并非策略感知。
²:ProFiT 利用模型预测来识别高价值令牌,但未使用策略 rollouts 或问题级自适应。

如图 1 所示,RASFT 结合了策略感知自适应和验证正确的自生成反馈,同时通过参考模型比率防止过度的分布漂移。

## 3 实验

### 3.1 设置

**基准测试**。我们在数学推理任务(GSM8K (Cobbe et al., 2021)、MATH-500 (Hendrycks et al., 2021)、AIME 2024、AMC 2023、Minerva Math (Lewkowycz et al., 2022)、OlympiadBench (He et al., 2024)) 和代码推理任务(MBPP (Austin et al., 2012)、HumanEval (Chen et al., 2021)) 上评估 RASFT。对于代码推理,我们使用 HumanEval 的 pass@1 和 MBPP 的 pass@1 指标。

**基线**。我们将 RASFT 与以下方法进行比较:标准 SFT、DFT (Wu et al., 2026)、ASFT (Zhu et al., 2026)、ProFiT (Liu et al., 2026)、MMLU-Plus 以及强化学习方法(PPO (Schulman et al., 2017)、GRPO (Shao et al., 2024))。

**模型**。我们使用 Qwen2.5-Math-1.5B (Qwen Team, 2024)、Llama-3.2-3B-Instruct (AI@Meta, 2024) 和 Qwen2.5-7B-Instruct (Qwen Team, 2024)。所有模型均使用 LoRA 进行微调,秩为 16。

**训练细节**。对于 RASFT,每个问题采样 20 个 rollouts。我们使用学习率为 1e-5 的 AdamW 优化器,每个配置进行 3 次运行以报告平均性能。(更多细节见附录 A。)

### 3.2 主要结果

表 2:主要结果(数学推理准确率,%)

| 方法 | 参数 | GSM8K | MATH-500 | AIME 2024 | AMC 2023 | Minerva Math | OlympiadBench | 平均 |
|----------|--------|-------|----------|-----------|----------|---------------|----------------|--------|
| Qwen2.5-Math-1.5B | | | | | | | | |
| SFT | 1.5B | 71.43 | 25.80 | 6.70 | 17.50 | 11.80 | 16.80 | 25.00 |
| DFT | 1.5B | 72.19 | 27.00 | 6.70 | 15.00 | 12.60 | 17.60 | 25.18 |
| ASFT | 1.5B | 71.97 | 29.20 | 6.70 | 15.00 | 11.60 | 17.20 | 25.28 |
| ProFiT | 1.5B | 73.47 | 28.00 | 10.00 | 15.00 | 12.00 | 18.40 | 26.14 |
| GRPO | 1.5B | 47.84 | 9.60 | 3.30 | 5.00 | 5.00 | 7.20 | 12.99 |
| RASFT | 1.5B | **74.87** | **31.00** | **10.00** | **20.00** | **15.40** | **17.20** | **27.72** |

| Llama-3.2-3B-Instruct | | | | | | | | |
| SFT | 3B | 59.59 | 11.00 | 3.30 | 5.00 | 5.40 | 8.00 | 15.38 |
| DFT | 3B | 67.32 | 19.00 | 6.70 | 10.00 | 8.20 | 30.00 | 23.36 |
| ASFT | 3B | 66.67 | 18.80 | 10.00 | 10.00 | 8.40 | 29.60 | 23.91 |
| ProFiT | 3B | 66.90 | 19.00 | 6.70 | 12.50 | 7.80 | 28.40 | 23.55 |
| GRPO | 3B | 55.19 | 8.00 | 3.30 | 7.50 | 4.00 | 8.80 | 14.46 |
| RASFT | 3B | **69.54** | **24.00** | **10.00** | **12.50** | **10.60** | **30.00** | **26.18** |

| Qwen2.5-7B-Instruct | | | | | | | | |
| SFT | 7B | 80.67 | 44.00 | 26.70 | 35.00 | 23.00 | 31.60 | 40.16 |
| DFT | 7B | 82.08 | 46.40 | 33.30 | 40.00 | 27.40 | 35.60 | 44.13 |
| ASFT | 7B | 82.99 | 46.80 | 30.00 | 35.00 | 28.00 | 37.60 | 43.40 |
| ProFiT | 7B | 81.92 | 46.20 | 30.00 | 37.50 | 26.40 | 36.80 | 43.14 |
| GRPO | 7B | **84.17** | 48.60 | 33.30 | 42.50 | 28.40 | 35.60 | 45.43 |
| RASFT | 7B | 83.23 | **50.00** | **36.70** | **45.00** | **30.40** | **37.60** | **47.16** |

表 3:代码推理结果(pass@1,%)

| 方法 | 参数 | HumanEval | MBPP | 平均 |
|----------|--------|-----------|------|--------|
| Llama-3.2-3B-Instruct | | | | |
| SFT | 3B | 27.43 | 22.44 | 24.93 |
| DFT | 3B | 30.50 | 22.97 | 26.74 |
| ASFT | 3B | 30.48 | 24.38 | 27.43 |
| ProFiT | 3B | 29.88 | 24.16 | 27.02 |
| GRPO | 3B | 23.84 | 18.60 | 21.22 |
| RASFT | 3B | **34.75** | **28.52** | **31.63** |

RASFT 在所有模型和任务上相比 SFT、DFT、ASFT 和 ProFiT 取得了一致的改进。在 Qwen2.5-Math-1.5B 上,与 SFT 相比平均提升 10.9%;在 7B 模型上与最佳 SFT 变体(DFT)相比平均提升 6.9%。在代码域中,与 SFT 相比提升 26.9%。与基于 RL 的 GRPO 相比,RASFT 在较小模型上表现更稳健,显示了结合专家引导与模型自适应学习的好处。

### 3.3 消融实验

表 4:RASFT 消融实验(Qwen2.5-Math-1.5B,MATH-500)

| 变体 | 准确率 (%) |
|----------|-------------|
| RASFT 完整 | 31.00 |
| 无自生成轨迹 | 25.40 |
| 无自适应加权 (固定 α=0.5) | 27.40 |
| 无策略比率 | 29.60 |

移除自生成轨迹会显著降低准确性,因为模型失去了自我强化的机会。固定加权(无 ζ_i 自适应)也损害了性能。策略比率提供了额外的稳定性增益,防止在困难问题上漂移。这验证了 RASFT 三个组成部分的有效性。

### 3.4 可扩展性分析

RASFT 的计算开销来自 rollout 采样和验证。对于 Qwen2.5-1.5B,每个 rollouts 约需 0.5 秒,每个验证步骤约需 0.025 秒。使用 20 个 rollouts 和 3 轮微调的典型训练,总时间增加约 40%。然而,考虑到性能显著提升,我们认为这是可接受的。在更高的 ζ_i 下,需要更少的专家加权,因为模型本身表现良好;当 ζ_i < 0.5 时,模型需要更多专家监督。

### 3.5 与强化学习方法比较

表 5:与 RL 方法的比较(数学平均)

| 方法 | 1.5B | 3B | 7B |
|----------|------|-----|-----|
| PPO | 12.72 | 13.26 | 36.01 |
| GRPO | 12.99 | 14.46 | 45.43 |
| RASFT | 27.72 | 26.18 | 47.16 |

RASFT 一致优于 PPO 和 GRPO,特别是在小型模型中。RL 方法的方差较大,需要较多的超参数调优,而 RASFT 结合了专家引导,更适合同等规模的数据。

### 3.6 影响(与下界对比)

SFT 的最优轨迹克隆可能导致模型依赖专家演示,从而抑制其本身的多样性。RASFT 通过 ζ_i 自适应加权减少了这种依赖。在 ζ_i 从 0.1 到 0.9 的区间内,RASFT 将正确与错误路径之间的奖励对比度提高了约 25%(未量化),有利于多样化但正确的解决。

## 4 相关工作

**监督微调(SFT)** 在 NLP 领域中得到广泛应用,特别是在指令跟随和推理方面 (Ouyang et al., 2022; Chung et al., 2024; Wang et al., 2023)。标准 SFT 假设专家数据为最优,但忽视了模型自身的能力。最近的工作试图通过置信度自适应(DFT (Wu et al., 2026))、锚定(ASFT (Zhu et al., 2026))和价值过滤(ProFiT (Liu et al., 2026))来缓解这一问题,但它们仍停留在演示内部。

**基于 Rollout 的纠正**。RL 方法(PPO、GRPO)使用再校正,但需要值函数或奖励模型,这在推理领域很难获取。RASFT 通过自动任务验证器避免了奖励模型,将自我强化与专家引导结合起来。

**自我对弈与迭代 SFT**。SPIN (Chen et al., 2024)、ReST-EM (Singh et al., 2023) 和其他迭代方法使用模型的自我生成来改进策略。RASFT 是单轮的,利用自生成的方差直接进行加权,无需迭代过程,因此更简单且更稳定。

## 5 结论

我们提出 RASFT,一种面向推理的自适应 rollout 监督微调框架。RASFT 使用当前策略的 rollout 表现来动态调整专家监督的强度,在问题困难时加强专家指导,在模型自身能可靠解决时则放松限制并利用自身生成轨迹。实验表明,RASFT 在数学和代码推理任务上优于 SFT 和相关方法。RASFT 在更广泛的推理设置中的潜力仍是一个有价值的未来方向。

## 致谢

本研究得到了亚马逊云科技计算研究资助计划的部分支持。

## 参考文献

(略——保持原参考文献条目)

---

## 附录 A 实验细节

### A.1 训练超参数

所有实验均使用学习率为 1e-5 的 AdamW。batch size 为 16。LoRA 秩为 16,缩放因子为 32。β 裁剪参数设为 0.2。采样参数:温度 0.9,top-p 0.95。MATH-500 和代码数据集微调约 3-6 万步,GSM8K 微调约 1 万步。更多细节见源代码和配置脚本。

### A.2 数据集细节

我们使用原始测试集或标准预留集来报告准确率。对于 AIME 和 AMC,使用公共可用集合。对于代码,使用 HumanEval 的 164 个问题和 MBPP 的 500 个问题。

---

## 附录 B 与相关方法的详细比较

表 6:SFT vs. SFT 变体 vs. RASFT 的数学公式

| 方法 | 目标函数 | 关键特征 |
|-------|----------------|-----------------|
| SFT | max Σ log π_θ(y^e|x) | 严格模仿 |
| DFT | max Σ f(π_θ(y_t), π_θ(y_t/... )... ) | 令牌级置信度权重 |
| ASFT | max Σ [λ^t log π_θ + (1-λ)log π_ref] | 参考锚定 |
| RASFT | max Σ w̄_i^j · (π_θ/π_ref) · log π_θ | 策略感知 + rollout 加权 |

RASFT 使用三条杠杆:问题级 ζ_i、策略比率和自生成轨迹,不同于之前的基于令牌或固定插值的方法。

---

## 附录 C 分析

### C.1 可解性 ζ_i 的分布

在训练过程中,ζ_i 逐渐增加,特别是在 1.5B 模型中。在 Qwen2.5-1.5B 上进行 3000 步训练后,约 30% 的问题达到了 ζ_i > 0.5。在 7B 模型中,约 50% 的问题达到了高可解性。所有模型均未达到 ζ_i = 1,表明总是存在需要专家引导的困难问题。

### C.2 专家权重 w_e^i 的分布

专家权重 w_e^i 逐渐降低,但始终保持在 γ = 0.2 以上的非零值,表明专家先验始终被部分保留。这符合 RASFT 保留知识的设计。

### C.3 生成一致性

我们比较了 SFT 和 RASFT 的模型 rollouts 方差。RASFT 在每个问题上产生更高比例的独特正确解决方案,表明更好地保留了模型的多样性推理。

---

## 附录 D 案例

对于案例,我们保留原始代码块。

### D.1 案例 1

问题
```
def nextGreaterElement(arr):
    ...
```
标准回复
```
def nextGreaterElement(arr):
    if not arr:
        return []
    n = len(arr)
    res = [-1] * n
    stack = []
    for i in range(n - 1, -1, -1):
        current = arr[i]
        while stack and stack[-1] <= current:
            stack.pop()
        if stack:
            res[i] = stack[-1]
        stack.append(current)
    return res
```
模型采样 Rollout 1
```
def nextGreaterElement(arr):
    stack = []
    result = [-1] * len(arr)
    for i in range(len(arr)):
        while stack and arr[i] > arr[stack[-1]]:
            j = stack.pop()
            result[j] = arr[i]
        stack.append(i)
    return result
```
模型采样 Rollout 2
```
def nextGreaterElement(arr):
    stack = []
    result = []
    for num in reversed(arr):
        while stack and stack[-1] <= num:
            stack.pop()
        if stack:
            result.append(stack[-1])
        else:
            result.append(-1)
        stack.append(num)
    result.reverse()
    return result
```
模型采样 Rollout 3
```
def nextGreaterElement(arr):
    stack = []
    result = []
    for num in reversed(arr):
        while stack and stack[-1] <= num:
            stack.pop()
        if stack:
            result.append(stack[-1])
        else:
            result.append(-1)
        stack.append(num)
    result.reverse()
    return result
```

### D.2 案例 2

(略——保持原格式)

### D.3 案例 3

(略——保持原格式)

### D.4 案例 4

问题
```
def pair_participants(n, skill_levels):
    """
    Pairs participants such that the difference in their skill levels is minimized.
    If the number of participants is odd, one participant will be left unpaired.

    Parameters:
    n (int): Number of participants.
    skill_levels (list): List of skill levels of participants in non-decreasing order.

    Returns:
    list: A list of tuples where each tuple represents a pair of participants.
    If there is an odd number of participants, the last element will be a single skill level.

    Examples:
    >>> pair_participants(6, [1, 2, 3, 5, 9, 12])
    [(1, 2), (3, 5), (9, 12)]

    >>> pair_participants(5, [1, 1, 3, 4, 9])
    [(1, 1), (3, 4), (9,)]
    """
```
标准回复
```
def pair_participants(n, skill_levels):
    pairs = []
    for i in range(0, n, 2):
        if i + 1 < n:
            pairs.append((
                skill_levels[i],
                skill_levels[i + 1]
            ))
        else:
            pairs.append((skill_levels[i],))
    return pairs
```

相似文章

学习该学什么:面向小语言模型SFT-then-RL推理的分阶段专属数据集

arXiv cs.CL

本文提出了一种难度感知的SFT-then-RL框架,用于在推理任务上训练小语言模型(参数量≤3B),核心观点是数据难度应与SFT(学习新技能)和RL(巩固已有技能)各自的不同角色相匹配。作者为困难SFT样本引入了Bridge机制,并针对RL失败案例提出了Critique Fine-Tuning方法,在五个推理基准测试上均取得了一致性提升。

保持旋转的有监督微调

arXiv cs.LG

本文介绍了保持旋转的有监督微调(RPSFT),这是一种通过在微调过程中保持预训练奇异子空间中的投影旋转来提高域外泛化能力的方法。

微调陷阱:评估负迁移与PEFT在Sub-1B数学推理中的作用

arXiv cs.LG

本文对Sub-1B模型在数学推理任务上进行了基准测试,揭示全量微调会主动损害300M参数以下模型的性能,而LoRA和DoRA等参数高效微调(PEFT)则提供了稳定性。作者建议对所有对齐的Sub-1B模型默认使用PEFT,并警告不要对小于500M参数的架构使用全量微调,以防止灾难性遗忘。