超越轨迹模仿:面向大模型推理的Strategy-Guided Policy Optimization

arXiv cs.AI 论文

摘要

介绍了针对大模型推理的Strategy-Guided Policy Optimization(SGPO),该方法用策略蒸馏替代轨迹模仿,提升了数学基准测试上的泛化能力。

arXiv:2606.24064v1 Announce Type: new 摘要:从强语言模型向弱语言模型蒸馏推理能力通常涉及模仿具体的解题轨迹,实质上是转移“回答什么”而非“如何推理”。这种轨迹级别的模仿鼓励记忆实例特定的步骤,而非获取可迁移的问题解决技能,从而限制了对新问题的泛化能力。我们提出策略引导策略优化(Strategy-Guided Policy Optimization,SGPO),用可复用的策略蒸馏替代实例级别的轨迹模仿。SGPO从强模型响应中提取结构化的策略描述,并为每个问题构建自主轨迹和策略引导轨迹,从而直接比较模型在有策略引导和无策略引导下的行为。该框架随后解决两个关键问题。关于如何蒸馏,一个token级别的正向KL目标函数选择性地将由策略调节引起的分布偏移转移到未引导策略中,并通过近端约束确保稳定性。关于何时蒸馏,自适应实例级别加权在自主探索不足时加强引导,并在模型自身能力增长时减少引导。在两个模型系列的四个数学基准上的实验表明,SGPO始终优于SFT、在线策略RL和混合策略基线,在Qwen2.5-7B-Instruct上比最强基线平均得分提高2.2分。分析表明,正向KL目标函数提供了内在选择性的蒸馏信号,优于直接轨迹模仿,并且策略蒸馏与基础模型能力表现出互补的缩放效应。
查看原文
查看缓存全文

缓存时间: 2026/06/24 07:44

# 超越轨迹模仿:面向LLM推理的策略引导策略优化 来源:https://arxiv.org/html/2606.24064

田源石1,黄灿彬1,李贝2,陈欣2,权晓军3,王金港2,王奇凡4  
1中山大学计算机科学与工程学院,中国  
2美团,中国  
3深圳洛普区域研究所,中国  
4Meta AI,美国  
\{shity6,huangcb3\}@mail2\.sysu\.edu\.cn, xiaojunquan@slai\.edu\.cn  
\{libei17,chenxin148,wangjingang02\}@meituan\.com, wqfcr@fb\.com

###### 摘要

将推理能力从强模型蒸馏到弱模型通常涉及模仿特定的解题轨迹,这实际上转移的是“回答什么”而非“如何推理”。这种轨迹层面的模仿鼓励对特定实例步骤的记忆,而非获得可迁移的问题解决技能,从而限制了向新问题的泛化。我们提出**策略引导策略优化**(Strategy-Guided Policy Optimization,SGPO),该框架将实例层面的轨迹模仿替换为可复用的**策略蒸馏**。SGPO从强模型响应中提取结构化的策略描述,并为每个问题构建自主轨迹和策略引导轨迹,从而直接比较模型在有策略引导和无策略引导下的行为。该框架随后解决两个关键问题。对于**如何**蒸馏,一个token级别的前向KL散度目标选择性将策略条件化引起的分布偏移转移到无引导策略中,并通过邻近约束确保稳定性。对于**何时**蒸馏,自适应的实例级别权重在自主探索不足时加强引导,并在模型自身能力增长时减少引导。在两个模型系列的四个数学基准上的实验表明,SGPO一致优于SFT、在线RL和混合策略基线,在Qwen2.5-7B-Instruct上将平均得分比最强基线提升2.2分。分析表明,前向KL散度目标提供了内在的选择性蒸馏信号,优于直接轨迹模仿;并且策略蒸馏与基础模型能力表现出互补的缩放特性。

## 1 引言

大型语言模型(LLM)展现了卓越的推理能力(Daya et al., 2025 (https://arxiv.org/html/2606.24064#bib.bib4); OpenAI et al., 2024 (https://arxiv.org/html/2606.24064#bib.bib15)),这激发了将这种能力迁移到更小模型的一系列方法。无论是通过对专家轨迹进行监督微调(Daya et al., 2025 (https://arxiv.org/html/2606.24064#bib.bib4); Ye et al., 2025 (https://arxiv.org/html/2606.24064#bib.bib23); Wu et al., 2026 (https://arxiv.org/html/2606.24064#bib.bib20); Zhu et al., 2025 (https://arxiv.org/html/2606.24064#bib.bib27)),还是通过将专家演示整合到策略优化中的混合目标(Yan et al., 2025 (https://arxiv.org/html/2606.24064#bib.bib21); Lv et al., 2026 (https://arxiv.org/html/2606.24064#bib.bib12); Fu et al., 2025 (https://arxiv.org/html/2606.24064#bib.bib6)),现有方法都基于相同的知识迁移单元:**实例级别的解题轨迹**。学生被训练去复制专家写的内容,也就是针对特定问题的特定推理步骤序列,但从未被教授可复用的问题解决策略来解释*为什么*要选择这些步骤。这种轨迹层面的模仿鼓励对特定实例模式的记忆,而非获得可迁移的技能,从而限制了向新问题的泛化。一个自然的问题是:**我们能否将蒸馏目标从特定解决方案转移到使这些解决方案有效的可复用问题解决策略?** 我们提出**策略引导策略优化**(SGPO),一个旨在实现这种转变的框架。SGPO从强模型响应中提取结构化的**策略描述**。每个描述指定问题类型、求解方法和通用程序步骤,而不进行计算或透露答案。SGPO不是要求学生复制专家生成的内容,而是使用这些描述来重塑学生自身的推理分布,蒸馏“如何推理”而非“回答什么”。一个核心设计原则是,策略知识应该**内化**到模型的无引导策略中,而不是成为推理时不可用的外部依赖。为此,SGPO为每个问题构建自主轨迹和策略引导轨迹(§3.1 (https://arxiv.org/html/2606.24064#S3.SS1)),从而直接比较模型在有策略引导和无策略引导下的行为。这种双重构建为解决两个互补问题奠定了基础:(1)**如何蒸馏**。一个token级别的前向KL散度目标衡量引导和无引导下下一个token分布之间的散度,并选择性地将策略关键信息蒸馏回无引导策略,同时在轨迹和token级别使用邻近约束确保稳定性(§3.3 (https://arxiv.org/html/2606.24064#S3.SS3), §3.4 (https://arxiv.org/html/2606.24064#S3.SS4))。(2)**何时蒸馏**。自适应的每个实例权重根据策略引导的边际效益调整蒸馏强度,在自主探索不足时加强蒸馏,并在模型自身能力增长时减少蒸馏(§3.4 (https://arxiv.org/html/2606.24064#S3.SS4))。这自然地将训练从早期策略驱动的快速改进过渡到后期自主策略主导的稳定优化,无需手动调度。关键的是,SGPO从不模仿任何轨迹,无论是自主的还是引导的。相反,它蒸馏由策略条件化引起的**分布偏移**,在token级别概率变化的层面操作,而不是序列匹配。这使得能够选择性迁移策略知识,同时保留模型通过自主探索已经获得的推理多样性。在两个模型系列(Qwen2.5和Llama-3.2)的四个数学基准上的实验表明,SGPO一致优于强基线,包括SFT、在线RL和最新的混合策略方法,在Qwen2.5-7B-Instruct上将平均得分比最强基线提升2.2分。分析揭示了两个发现。首先,前向KL散度目标提供了内在的选择性蒸馏信号:在没有任何token级别标注的情况下,优化压力集中在策略条件化下概率变化最大的token上,这些token经验上对应于策略关键的决策点,而非常规语言token。其次,策略蒸馏与基础模型能力表现出互补的缩放特性:随着基础推理能力的增长,内化策略引导的能力以更快的速度提升,这表明需要最低的推理能力才能从策略级别的迁移中受益。

## 2 相关工作

### 2.1 用于LLM推理的监督微调

在弱模型上训练专家推理轨迹是最常见的推理蒸馏形式(Daya et al., 2025 (https://arxiv.org/html/2606.24064#bib.bib4); Ye et al., 2025 (https://arxiv.org/html/2606.24064#bib.bib23))。虽然简单有效,但这种轨迹级别的蒸馏对数据质量敏感(Ye et al., 2025 (https://arxiv.org/html/2606.24064#bib.bib23)),容易产生记忆(Chu et al., 2025 (https://arxiv.org/html/2606.24064#bib.bib3)),并且暴露于偏差(Wu et al., 2026 (https://arxiv.org/html/2606.24064#bib.bib20))。最近的工作从RL角度沿着两个方向缓解这些问题。第一个方向引入邻近约束:Wu et al. (2026 (https://arxiv.org/html/2606.24064#bib.bib20)) 使用模型自身的预测降低对已学好token的损失权重,而PSFT (Zhu et al., 2025 (https://arxiv.org/html/2606.24064#bib.bib27)) 应用邻近裁剪来约束更新幅度。第二个方向将SFT重新诠释为奖励优化视角;例如,IW-SFT (Qin & Springenberg, 2025 (https://arxiv.org/html/2606.24064#bib.bib16)) 通过在策略概率比上使用重要性权重来收紧RL下界。这些方法改进了**如何**迁移教师输出,但没有改变**迁移什么**:学生仍然模仿特定的解决方案。相比之下,我们的工作在更高的抽象层面操作,蒸馏可复用的**策略**而非具体的轨迹。

### 2.2 用于LLM推理的混合策略优化

将专家演示纳入策略优化是RL中一个长期存在的主题(Rajeswaran et al., 2018 (https://arxiv.org/html/2606.24064#bib.bib17); Nair et al., 2018 (https://arxiv.org/html/2606.24064#bib.bib14))。最近的LLM方法遵循两个方向。**统一损失方法**将专家数据混合到RL目标中:LUFFY (Yan et al., 2025 (https://arxiv.org/html/2606.24064#bib.bib21)) 使用正则化重要性采样将离策略专家轨迹添加到GRPO rollout组中;AMPO (Yuan et al., 2025 (https://arxiv.org/html/2606.24064#bib.bib25)) 用多样化的离策略替代来替换错误的在线策略样本;其他方法交替进行RL和SFT更新(Ma et al., 2026 (https://arxiv.org/html/2606.24064#bib.bib13); Chen et al., 2025 (https://arxiv.org/html/2606.24064#bib.bib2));SRFT (Fu et al., 2025 (https://arxiv.org/html/2606.24064#bib.bib6)) 将这些想法统一在一个具有样本级别调制的单阶段框架中。**前缀引导方法**使用专家轨迹来结构化生成:UFT (Liu et al., 2025 (https://arxiv.org/html/2606.24064#bib.bib11)) 逐步掩盖专家后缀以鼓励自主性,而BREAD (Zhang et al., 2025 (https://arxiv.org/html/2606.24064#bib.bib26)) 从中间专家步骤分支rollout。所有这些方法都在特定解题步骤的层面迁移知识。我们的方法在两个不同方面有所区别:(i) 它条件化于策略描述,这些描述指定解题方向而不规定具体计算;(ii) 它不是模仿教师的输出,而是蒸馏策略条件化在学生自身策略中引起的**分布偏移**,使得迁移自然适应学生当前能力,同时在推理时消除对外部提示的依赖。

## 3 方法

### 3.1 问题形式化与概述

设 \(\pi_\theta(\cdot\mid q)\) 表示目标模型对推理问题 \(q\) 的策略。对于每个问题,我们假设可以从强模型响应中提取一个**策略描述** \(s\)。策略描述是一个简洁的自然语言摘要,指定问题类型、求解方法和通用程序步骤,而不进行中间计算或透露最终答案。它编码了可操作的策略信息,同时省略了特定于解决方案的细节,处于通用提示和完整解之间的中间位置。提取流水线和提示模板的详细信息在附录B (https://arxiv.org/html/2606.24064#A2) 中提供。

对于每个训练问题 \(q\),我们构建两个轨迹组:
(1) **自主组** \(\{o_i\}_{i=1}^{G_1}\),从 \(\pi_\theta(\cdot\mid q)\) 采样;
(2) **策略引导组** \(\{\tilde{o}_j\}_{j=1}^{G_2}\),从 \(\pi_\theta(\cdot\mid q,s)\) 采样,其中 \(s\) 被预置到提示中。

核心挑战是将引导条件下获得的信息转化为原始无引导条件下可复用的推理能力。本节的其余部分将描述共同应对这一挑战的三种机制:自主GRPO优化 (§3.2)、token级别前向KL蒸馏 (§3.3) 以及带自适应权重的邻近约束 (§3.4)。

请参考图注

**图1:** SGPO框架概览。对于每个问题,我们联合构建自主组和策略引导组。自主组使用GRPO进行优化。来自策略引导组的正确轨迹为无引导策略提供邻近KL蒸馏信号。自适应权重 \(\alpha(q)\) 控制蒸馏强度。

### 3.2 使用GRPO的自主探索

自主轨迹组使用组相对策略优化 (GRPO; Shao et al. 2024 (https://arxiv.org/html/2606.24064#bib.bib18)) 进行优化。对于每个问题 \(q\),采样的 \(G_1\) 个响应通过可验证的奖励函数 \(R(o_i, q) \in \{0,1\}\) 进行评分。每个组内的奖励被归一化为零均值、单位方差的优势 \(\hat{A}_i\),策略通过裁剪目标进行更新:

\[
\mathcal{L}_{\mathrm{GRPO}}(\theta) = \mathbb{E}_{q, \{o_i\}} \left[ \frac{1}{G_1} \sum_{i=1}^{G_1} \frac{1}{|o_i|} \sum_{t=1}^{|o_i|} \min\left( \rho_{i,t} \hat{A}_i, \mathrm{clip}(\rho_{i,t}, 1-\varepsilon, 1+\varepsilon) \hat{A}_i \right) \right],
\tag{1}
\]

其中 \(\rho_{i,t} = \frac{\pi_\theta(o_{i,t} \mid q, o_{i,<t})}{\pi_{\theta_{\text{old}}}(o_{i,t} \mid q, o_{i,<t})}\) 是重要性采样比率,\(\varepsilon\) 是裁剪阈值。与标准GRPO不同,我们的设置避免了固定参考模型和KL惩罚项,因为策略在引导组和自主组之间共享,并且蒸馏步骤(下一步讨论)已经提供了朝向引导分布的显式约束。

### 3.3 Token级别前向KL蒸馏

虽然自主GRPO鼓励探索,策略引导通过提供方向性信息来加速学习。然而,在推理时无法访问策略描述,因此引导知识必须被内化到无引导策略中。我们通过蒸馏由策略条件化引起的分布偏移来实现这一点。

对于每个问题 \(q\),设 \(p_{\theta_{\text{old}}}(\cdot \mid q)\) 和 \(p_{\theta_{\text{old}}}(\cdot \mid q, s)\) 分别表示在旧策略参数下无引导和引导的下一个token分布。关键的想法是:由于 \(s\) 不包含计算或答案,将 \(p_{\theta_{\text{old}}}(\cdot \mid q)\) 推向 \(p_{\theta_{\text{old}}}(\cdot \mid q, s)\) 会鼓励采用更好策略,而不是模仿特定的步骤序列。对此,一个自然的候选是前向KL散度,它惩罚在 \(p(\cdot \mid q, s)\) 下高概率但在 \(p(\cdot \mid q)\) 下低概率的token:

\[
\mathcal{L}_{\mathrm{KD}}^{\mathrm{fw}}(\theta; q) = \mathbb{E}_{\tilde{o} \sim \pi_{\theta_{\text{old}}}(\cdot \mid q,s)} \left[ \frac{1}{|\tilde{o}|} \sum_{t=1}^{|\tilde{o}|} -\log \pi_\theta(\tilde{o}_t \mid q, \tilde{o}_{<t}) \cdot w_t \cdot R(\tilde{o}, q) \right],
\tag{2}
\]

其中 \(w_t = \frac{p_{\theta_{\text{old}}}(\tilde{o}_t \mid q, s)}{p_{\theta_{\text{old}}}(\tilde{o}_t \mid q)}\) 是每个token的重要性权重,\(R(\tilde{o}, q)\) 是一个指示变量,仅对来自引导组的正确轨迹进行蒸馏。这种加权至关重要:没有它,蒸馏目标将退化为轨迹级别的模仿;而有了它,优化压力自然集中在那些因策略条件化而概率显著增加的token上。我们只蒸馏正确轨迹,以避免灌输不正确的推理模式对自主策略的影响。

**选择性蒸馏的特性。** 权重 \(w_t\) 在策略条件化下概率增加的token处被放大,而在概率降低或保持不变的token处被抑制。这意味着蒸馏的重点是在给定策略时考虑更可能的推理步骤,而不是逐字复制引导响应。在实验中(§5.2),我们验证了高 \(w_t\) 的token通常对应于策略关键决策点,而非功能词或计算步骤,从而实现了自动定位的针对性蒸馏。

### 3.4 邻近约束与自适应权重

**三层邻近性。** 我们引入三个级别的约束来确保稳定更新并防止蒸馏干扰自主探索:

1.  **轨迹级邻近性。** 强制的KL约束 \(\mathcal{L}_{\mathrm{KL}}^{\mathrm{traj}}\) 限制了 \(p_\theta(\cdot \mid q)\) 和 \(p_{\theta_{\text{old}}}(\cdot \mid q)\) 之间每个问题在完整轨迹上的平均KL散度,使用与GRPO相同的采样组。在实践中,我们发现在蒸馏期间固定旧策略是充足的,因为GRPO裁剪提供了额外的保护。

2.  **Token级邻近性:裁剪蒸馏。** 借鉴PPO的思想,我们在蒸馏损失中应用每个token的裁剪:

    \[
    \mathcal{L}_{\mathrm{KD}}^{\mathrm{clip}}(\theta; q) = \mathbb{E}_{\tilde{o} \sim \pi_{\theta_{\text{old}}}(\cdot \mid q,s)} \left[ \frac{1}{|\tilde{o}|} \sum_{t=1}^{|\tilde{o}|} \min\left( -\log \pi_\theta(\tilde{o}_t \mid q, \tilde{o}_{<t}) \cdot w_t, \mathrm{clip}(-\log \pi_\theta(\cdot), \text{low}, \text{high}) \right) \cdot R(\tilde{o}, q) \right],
    \tag{3}
    \]

    其中裁剪边界通过缩放原始对数概率得到。

3.  **实例级邻近性:自适应权重。** 并非所有问题都同样受益于策略引导。我们根据每个实例的边际引导效益自适应地设置蒸馏强度。具体来说,对于问题 \(q\),设 \(p_{\text{ref}}\) 是参考策略(例如,冻结的初始策略)的自主通过率,\(p_{\text{guided}}^{(\text{ref})}\) 是参考策略在引导下的通过率,\(p_{\text{guided}}\) 是当前策略在引导下的通过率。自适应权重 \(\alpha(q)\) 定义为:

    \[
    \alpha(q) = \alpha_{\max} \cdot \sigma\left( \frac{p_{\text{guided}} - p_{\text{guided}}^{(\text{ref})}}{\gamma} \right),
    \tag{4}
    \]

    其中 \(\sigma\) 是Sigmoid函数,\(\gamma > 0\) 是平滑常数,\(\alpha_{\max}\) 是上限。当策略引导显著提高通过率时,权重较大;当模型已经能够自主解决问题时,权重趋近于零。关于替代加权策略的比较见附录G (https://arxiv.org/html/2606.24064#A7)。

### 3.5 总体目标

对于每个问题 \(q\),训练损失结合了自主GRPO和邻近策略蒸馏:

\[
\mathcal{L}(\theta; q) = \mathcal{L}_{\mathrm{GRPO}}(\theta; q) + \alpha(q) \mathcal{L}_{\mathrm{KD}}^{\mathrm{clip}}(\theta; q),
\tag{7}
\]

并在小批量上取平均。概念上,策略提取决定了**迁移什么**;token级别的前向KL目标通过集中在策略关键位置来识别**在哪里迁移**;而三层邻近约束在轨迹、token和实例粒度上控制**迁移多少**。完整的训练算法在附录D (https://arxiv.org/html/2606.24064#A4) 中给出。

## 4 实验设置

### 4.1 模型与数据

我们在两个模型系列上进行实验:Qwen2.5-{1.5B, 7B}-Instruct (Yang et al., 2025 (https://arxiv.org/html/2606.24064#bib.bib22)) 和 Llama-3.2-8B-Instruct (Dubey et al., 2024 (https://arxiv.org/html/2606.24064#bib.bib5)),覆盖不同的架构和规模。训练数据包括从LUFFY数据集 (Yan et al., 2025 (https://arxiv.org/html/2606.24064#bib.bib21)) 中随机采样的8.5K问题,参考解由DeepSeek-R1生成。每个RL训练实例需要 \(G_1 + G_2 = 12\) 个采样轨迹,但在此中等规模下已观察到稳定的收益,表明数据效率良好。策略描述通过附录B (https://arxiv.org/html/2606.24064#A2) 中描述的过程从相应的参考解中提取。关于策略描述质量的分析见附录H (https://arxiv.org/html/2606.24064#A8)。

### 4.2 评估基准

我们在四个难度递增的数学推理基准上进行评估:

相似文章

基于梯度外推的策略优化

arXiv cs.LG

本文介绍了基于梯度外推的策略优化(GXPO),这是一种仅使用三次反向传播即可在大型语言模型(LLM)的强化学习训练中近似多步前瞻的方法。它在保持固定活跃阶段成本的同时,在数学基准测试上展示了优于标准 GRPO 的推理性能。

SocraticPO:通过交互式指导的策略优化

arXiv cs.LG

SocraticPO通过苏格拉底式自然语言指导和奖励衰减增强强化学习(RL)的展开过程,以提升大语言模型(LLM)的科学推理能力,在SciKnowEval基准测试中超越强基线。

通过近未来引导弥合在线蒸馏中的推理轨迹

arXiv cs.CL

本文指出了在线蒸馏大语言模型时token级监督的局限性,并提出TOPD方法,利用近未来轨迹信息更好地识别发散推理状态并将引导分布到多个token上,在AIME基准测试中取得了性能提升。

提示引导的多样化策略优化用于LLM推理

arXiv cs.CL

本文介绍了提示引导的多样化策略优化(HDPO),这是一个两阶段强化学习框架,鼓励LLMs首先生成多个候选解决方案大纲(提示),然后选择最可靠的一个进行详细推理,从而提升推理的多样性和可靠性。