授之以渔而非授之以鱼:面向多模态策略优化的特权引导式蒸馏

arXiv cs.AI 论文

摘要

本文提出PTD-PO,一种特权引导式蒸馏框架,可在多模态推理任务中为基于可验证奖励的强化学习提供密集的token级监督,且不暴露答案。该框架利用结构化提示和Top-K JS散度目标以稳定训练,在2B-8B LVLMs上持续优于现有方法。

arXiv:2606.07000v1 公告类型:新 摘要:最近的后训练方法,尤其是基于可验证奖励的强化学习(RLVR),显著增强了大型视觉语言模型(LVLMs)的推理能力。然而,可验证奖励的稀疏性为失败的 rollout 提供了极少的token级监督,常常导致复杂多模态推理任务中的低效探索。尽管策略蒸馏可以提供密集的指导,但基于外部教师的方法引入了大量计算开销,而基于答案条件化的微调方法可能暴露答案级别的信息并引发类似捷径的生成行为。为解决这些局限,我们提出PTD-PO,一种用于RLVR的特权引导式蒸馏策略优化框架,在向学生策略不暴露答案的情况下提供密集指导。具体而言,PTD-PO从空间注意力指导和中间文本推理步骤构建结构化的特权提示,并通过上下文学习利用它们产生步进式的token分布监督。学生仍在原始的无答案上下文中进行优化,其失败的rollout在token分布层面上与经过提示增强的参考模型对齐。为了进一步稳定在引导与无引导上下文之间的分布偏移下的蒸馏,我们引入Top-K Jensen-Shannon散度目标,将对齐聚焦于信息性token概率,同时减少内存开销。在2B至8B参数规模的LVLMs上的实验表明,PTD-PO持续优于RLVR和蒸馏基线,缓解了熵坍塌,并提升了复杂多模态推理性能。
查看原文
查看缓存全文

缓存时间: 2026/06/08 09:14

# 授之以渔,而非授之以鱼:面向多模态策略优化的特权教学蒸馏方法  
来源: https://arxiv.org/html/2606.07000  
向仕哲1*†, 安可2*†, 余文龙3, 刘悦4†, 栾剑5, 傅培5§, 王启龙1‡  
1天津大学  
2北京理工大学  
3新加坡管理大学  
4中国科学院大学  
5小米公司  

###### 摘要  
近期的后训练方法,特别是基于可验证奖励的强化学习(RLVR),显著提升了大型视觉-语言模型(LVLMs)的推理能力。然而,可验证奖励的稀疏性为失败的探索过程提供的token级别监督极少,这常常导致在复杂多模态推理任务中探索效率低下。尽管策略蒸馏可以提供密集的指导,但基于外部教师的方法会引入大量计算开销,而基于答案条件的微调方法可能会暴露答案级别的信息,诱发捷径式的生成行为。为应对这些局限,我们提出PTD-PO,一个用于RLVR的特权教学蒸馏策略优化框架,它能在不向学生策略暴露答案的前提下提供密集指导。具体而言,PTD-PO通过空间注意力引导和中间文本推理步骤构建结构化的特权提示,并利用上下文学习产生逐步的token分布监督。学生策略仍在原始的无答案上下文下进行优化,其失败的过程在token分布层面与提示增强的参考模型对齐。为稳定在引导与无引导上下文间的分布偏移下的蒸馏过程,我们引入了一个Top-K Jensen-Shannon散度目标,专注于对齐信息性token概率,同时减少内存开销。在参数量从2B到8B的LVLMs上的实验表明,PTD-PO一致优于RLVR和蒸馏基线,缓解了熵崩溃,并提升了复杂多模态推理性能。项目页面: https://github.com/XszNeverSleep/PTD-PO。  
1* 同等贡献。  
2† 工作于小米实习期间完成。  
3§ 第一通讯作者。  
4‡ 共同通讯作者。  

## 1 引言  
近期大型视觉-语言模型(LVLMs)的进展使其在复杂多模态推理任务上展现出强劲性能,模型需要锚定视觉证据、执行多步推理并产生可验证的答案 (Liu et al., 2023 (https://arxiv.org/html/2606.07000#bib.bib1); Yue et al., 2024 (https://arxiv.org/html/2606.07000#bib.bib2); Lu et al., 2023 (https://arxiv.org/html/2606.07000#bib.bib3); Bai et al., 2025 (https://arxiv.org/html/2606.07000#bib.bib4); Dai et al., 2023 (https://arxiv.org/html/2606.07000#bib.bib35); Li et al., 2023 (https://arxiv.org/html/2606.07000#bib.bib34))。基于可验证奖励的强化学习(RLVR)已成为一种有前景的后训练范式,用于进一步激发此类能力,因为它用结果级别的反馈取代了昂贵的人工偏好标注 (Ouyang et al., 2022 (https://arxiv.org/html/2606.07000#bib.bib5); Shao et al., 2024 (https://arxiv.org/html/2606.07000#bib.bib6); Guo et al., 2025 (https://arxiv.org/html/2606.07000#bib.bib7); Team et al., 2025 (https://arxiv.org/html/2606.07000#bib.bib8); Askell et al., 2021 (https://arxiv.org/html/2606.07000#bib.bib16))。然而,可验证奖励通常只分配给最终答案 (Lightman et al., 2023 (https://arxiv.org/html/2606.07000#bib.bib9); Chen et al., 2024 (https://arxiv.org/html/2606.07000#bib.bib37))。因此,失败的探索过程几乎不提供关于哪个中间视觉锚定或推理步骤出错的任何信息,这使得信用分配变得困难,并常常导致在大型推理空间中的探索失败 (Prakash and Buvanesh, 2025 (https://arxiv.org/html/2606.07000#bib.bib10); Tran et al., 2025 (https://arxiv.org/html/2606.07000#bib.bib38); Ren et al., 2026 (https://arxiv.org/html/2606.07000#bib.bib36))。缓解奖励稀疏性的一种自然方式是,用密集的token级别指导替代或补充结果级别的RLVR (Agarwal et al., 2024 (https://arxiv.org/html/2606.07000#bib.bib15); Gu et al., 2024 (https://arxiv.org/html/2606.07000#bib.bib17))。在线策略蒸馏(OPD)通过在训练期间将学生策略的探索过程与教师策略对齐来提供此类指导。然而,它通常需要外部教师对学生生成的轨迹进行在线推理,这会产生大量计算开销,降低训练效率,并可能引入tokenizer或词汇表不匹配问题 (Fu et al., 2026 (https://arxiv.org/html/2606.07000#bib.bib18); Minixhofer et al., 2025 (https://arxiv.org/html/2606.07000#bib.bib19))。一种更高效的替代方案是上下文自蒸馏,它在额外条件化条件下从学生模型自身构建教师。现有方法通常使用真实答案或完整解决方案作为此条件化信号,以获得更强的监督。然而,这种揭示答案的上下文改变了教学行为:它不是引导模型发现推理路径,而是可能诱导出答案级别的捷径,导致轨迹过于确定,token分布尖锐,加速熵崩溃,并减少对替代推理路径的探索 (Zhao et al., 2026 (https://arxiv.org/html/2606.07000#bib.bib20); Hübotter et al., 2026 (https://arxiv.org/html/2606.07000#bib.bib11); Zhang et al., 2026 (https://arxiv.org/html/2606.07000#bib.bib22))。综上所述,这些局限呼唤一种新型的密集监督,它既要高效(避免昂贵的外部在线教师),又要非揭示性(提供纠正性推理指导但不暴露会破坏探索的答案级别信息)。  

参见图注  
图1: PTD-PO的概念示意图。(a) PTD-PO用无答案的特权提示补充稀疏奖励的RLVR,避免了揭示答案的蒸馏带来的过度确定性行为。(b) 在一个失败的几何示例中,actor仅从问题上下文给出错误答案。特权提示引导参考模型关注面积关系和等面积框架,并推断ABCD、EFGH和IJKL之间的关系,而不暴露最终面积。由此产生的提示增强教师分布为纠正失败的学生轨迹提供了密集监督。  

为应对这些挑战,我们提出基于特权教学蒸馏的策略优化(PTD-PO)。如图1 (https://arxiv.org/html/2606.07000#S1.F1) 所示,PTD-PO使用无答案的提示作为自蒸馏的教学信号。与揭示答案的自蒸馏(教师以完整解决方案轨迹为条件)不同,PTD-PO让参考模型利用非剧透提示推断出一个纠正性的推理方向,而学生仍在原始的无答案上下文中学习。这种设计将用于生成监督的信息与学生策略可获得的信息解耦,遵循了利用特权信息学习的范式 (Vapnik and Vashist, 2009 (https://arxiv.org/html/2606.07000#bib.bib23); Sharmanska et al., 2013 (https://arxiv.org/html/2606.07000#bib.bib24))。这些提示结合了视觉锚定线索和高级推理指导,这与解释引导的视觉语言学习和逐步推理蒸馏相关 (Selvaraju et al., 2019 (https://arxiv.org/html/2606.07000#bib.bib25); Hsieh et al., 2023 (https://arxiv.org/html/2606.07000#bib.bib26))。通过这种方式,PTD-PO将可验证奖励识别出的失败探索过程转化为密集的学习信号,而不鼓励答案条件的捷径。然而,提示增强教师与无答案学生之间的非对称蒸馏可能不稳定且内存密集。因此,我们引入了一个带尾部补偿的Top-K Jensen-Shannon散度目标,它在稳定上下文不匹配分布对齐的同时,减少了token级别蒸馏的内存开销。我们在参数量从2B到8B的LVLMs上,在复杂多模态推理基准上评估PTD-PO。实验表明,PTD-PO一致优于RLVR和基于蒸馏的基线。进一步分析表明,PTD-PO维持了更高的策略熵,改善了从失败探索过程中的恢复,并降低了在线蒸馏的内存开销。这些结果表明,PTD-PO能在RLVR后训练期间提供密集推理指导,同时保持探索。总结而言,我们的贡献如下:  
- • **用于RLVR的特权教学**。我们识别出稀疏的结果奖励和揭示解决方案的自蒸馏会限制多模态RLVR中的探索,并引入了一个无答案的特权教学框架,能在不暴露解决方案级别信息的前提下提供密集指导。  
- • **PTD-PO**。我们提出PTD-PO,一个特权教学蒸馏框架,通过将冻结的参考模型以空间和文本提示为条件,将密集监督路由到失败轨迹,同时保持学生策略在原始无答案上下文中。我们进一步引入带尾部补偿的Top-K JSD目标,以实现稳定且内存高效的非对称蒸馏。  
- • **实证有效性和通用性**。实验表明,PTD-PO在不同模型规模和多个多模态推理基准上一致提升LVLMs。我们还证明了所提出的PTD模块可与不同的RLVR优化器兼容,表明其通用适用性。  

## 2 方法论  

### 2.1 预备知识  

#### 组相对策略优化。  
给定一个多模态问题$x$,策略模型$\pi_\theta$生成一组响应$\{y_i\}_{i=1}^G$,其中$y_i=(y_{i,1},\ldots,y_{i,T_i})$。每个响应通过可验证奖励$r_i$进行评估。GRPO (Shao et al., 2024 (https://arxiv.org/html/2606.07000#bib.bib6)) 通过在采样组内归一化奖励来估计每个响应的优势:  
$A_i=\frac{r_i-\mathrm{mean}(\{r_j\}_{j=1}^G)}{\mathrm{std}(\{r_j\}_{j=1}^G)+\epsilon}$。 (1)  
令$\pi_{\theta_{\mathrm{old}}}$表示rollout策略,并定义token级别重要性比率为:  
$\rho_{i,t}(\theta)=\frac{\pi_\theta(y_{i,t}\mid x,y_{i,<t})}{\pi_{\theta_{\mathrm{old}}}(y_{i,t}\mid x,y_{i,<t})}$。 (2)  
GRPO的优化目标 (对于第$i$个响应) 为:  
$\mathcal{L}_{\mathrm{GRPO}}(\theta)=\mathbb{E}_{(x,\{y_i\})\sim\mathcal{D}}\left[\frac{1}{G}\sum_{i=1}^G\frac{1}{T_i}\sum_{t=1}^{T_i} \mathcal{L}_{i,t}^{\mathrm{clip}} - \beta D_{\mathrm{KL}}(\pi_\theta\|\pi_{\mathrm{ref}})\right]$, (3)  
其中$\mathcal{L}_{i,t}^{\mathrm{clip}}$是裁剪后的替代目标 (Schulman et al., 2017 (https://arxiv.org/html/2606.07000#bib.bib27)):  
$\mathcal{L}_{i,t}^{\mathrm{clip}} = -\min\left(\rho_{i,t}(\theta)A_i, \mathrm{clip}(\rho_{i,t}(\theta),1-\epsilon,1+\epsilon)A_i\right)$。 (4)  
公式(3)中的KL项$\beta D_{\mathrm{KL}}(\pi_\theta\|\pi_{\mathrm{ref}})$将当前策略向参考策略$\pi_{\mathrm{ref}}$正则化。  

#### 在线策略蒸馏。  
在线策略蒸馏 (OPD) 通过最小化学生与教师策略之间的KL散度来提供密集指导。形式上,在student的rollout分布下,OPD目标为:  
$\mathcal{L}_{\mathrm{OPD}}(\theta)=\mathbb{E}_{s\sim\mathcal{D}_{\mathrm{stu}}}\left[D_{\mathrm{KL}}(\pi_{\mathrm{tea}}(\cdot\mid s)\|\pi_\theta(\cdot\mid s))\right]$, (5)  
其中$\mathcal{D}_{\mathrm{stu}}$是student的rollout分布,$s=(x,y_{<t})$是状态。当使用条件化参考模型$\pi_{\mathrm{ref}}$作为教师时,OPD变为在线自蒸馏:  
$\mathcal{L}_{\mathrm{OSD}}(\theta)=\mathbb{E}_{s\sim\mathcal{D}_{\mathrm{stu}}}\left[D_{\mathrm{KL}}(\pi_{\mathrm{ref}}(\cdot\mid c_{\mathrm{tea}},s)\|\pi_\theta(\cdot\mid s))\right]$, (6)  
其中$c_{\mathrm{tea}}$是教师的额外条件,通常包含ground-truth答案或完整解决方案。这种揭示答案的条件化使教师严重偏向确定性轨迹,抑制了探索。  

### 2.2 特权教学蒸馏  
为了提供密集监督而不暴露答案,我们引入特权教学蒸馏。整体框架由三个关键组件组成:特权提示构建、提示增强的参考模型,以及非对称蒸馏。  

#### 特权提示构建。  
给定多模态输入$(x_{\mathrm{v}}, x_{\mathrm{t}})$,其中$x_{\mathrm{v}}$是输入图像,$x_{\mathrm{t}}$是文本问题,我们构建一个特权提示$h=(h_{\mathrm{spatial}}, h_{\text{reasoning}})$,它在答案信息意义上保持无剧透。  
- **空间提示** $h_{\mathrm{spatial}}$:我们通过注意力图将相关视觉区域定位到关键推理步骤。具体来说,对于参考模型内部注意力层中的每个推理步骤$k$,我们提取跨图像的空间注意力分布,并通过阈值化确定关键区域。提示“请特别注意[对象名]所在区域”格式化为$h_{\mathrm{spatial}}$。  
- **推理提示** $\text{推理提示}$:我们提供高层次推理结构指导(如“注意面积关系”、“检查等面积框架”),而不指定最终数值结果。这些提示引导模型朝正确推理方向前进,同时保留中间探索空间。  
最终特权提示$h$通过连接 $h = [h_{\mathrm{spatial}}; h_{\text{reasoning}}]$ 构建,并注入到参考模型的提示中。  

#### 提示增强的参考模型。  
我们使用冻结的参考模型$\pi_{\text{ref}}$,它在原始上下文上进行了标准RLVR训练,但在蒸馏期间使用特权提示$h$条件化。对于每个状态$s$,参考模型产生token分布:  
$\pi_{\text{ref}}^h(\cdot\mid s) := \pi_{\text{ref}}(\cdot\mid h, s)$。 (7)  
虽然提示增强了参考预测,但参考模型本身保持不变——提示仅通过上下文学习影响其分布,而不是通过更新。  

#### 非对称蒸馏。  
学生策略$\pi_\theta$继续在原始无答案上下文下运行,不访问$h$。我们将学生分布与提示增强的教师分布在不同状态上进行对齐。具体来说,对于每个token位置$t$和响应$i$,蒸馏目标为:  
$\mathcal{L}_{\text{PTD}}(\theta) = \mathbb{E}_{(x,\{y_i\})\sim\mathcal{D}_{\text{stu}}} \left[\frac{1}{G}\sum_{i=1}^G \frac{1}{T_i} \sum_{t=1}^{T_i} D_{\text{KL}}(\pi_{\text{ref}}^h(\cdot\mid s_{i,t})\|\pi_\theta(\cdot\mid s_{i,t}))\right]$, (8)  
其中$s_{i,t} = (x, y_{i,<t})$。注意教师和学生共享相同的自回归上下文$(x, y_{i,<t})$,唯一区别是教师额外看到特权提示$h$。这确保了监督仅源自避免剧透的提示信息,而非暴露的答案。  

### 2.3 Top-K Jensen-Shannon 散度  
提示增强教师与无答案学生之间的分布偏移可能导致KL散度训练不稳定。此外,token级别蒸馏在计算每个位置的全词汇表分布时带来高昂内存成本。为解决这两个问题,我们提出Top-K Jensen-Shannon散度目标,并带有尾部补偿。  

设$p_s = \pi_\theta(\cdot\mid s)$为学生分布,$q_s = \pi_{\text{ref}}^h(\cdot\mid s)$为教师分布。令$\mathcal{V}$为词汇表,大小为$|\mathcal{V}|=V$。定义$m_s = \frac{p_s + q_s}{2}$为平均分布。Top-K集合为:  
$\mathcal{S}_K = \{v \in \mathcal{V} \mid \max(p_s(v), q_s(v)) \text{ 在 } \mathcal{V} \text{ 中为第 } K \text{ 大值}\}$。  
JSD目标(对所有token)为:  
$\mathcal{L}_{\text{JSD}}(p_s, q_s) = \frac{1}{2} D_{\text{KL}}(p_s\|m_s) + \frac{1}{2} D_{\text{KL}}(q_s\|m_s)$。 (9)  
我们提出Top-K JSD目标:  
$\mathcal{L}_{\text{TopK-JSD}}(p_s, q_s) = \frac{1}{2} \sum_{v \in \mathcal{S}_K} p_s(v) \log \frac{p_s(v)}{m_s(v)} + \frac{1}{2} \sum_{v \in \mathcal{S}_K} q_s(v) \log \frac{q_s(v)}{m_s(v)}$。 (10)  
对于不在$\mathcal{S}_K$中的尾部token,我们使用一个补偿项来近似整个KL:  
$\mathcal{L}_{\text{tail}}(p_s, q_s) = \frac{1}{2} p_{\text{tail}} \log \frac{p_{\text{tail}}}{m_{\text{tail}}} + \frac{1}{2} q_{\text{tail}} \log \frac{q_{\text{tail}}}{m_{\text{tail}}}$, (11)  
其中$p_{\text{tail}} = \sum_{v \notin \mathcal{S}_K} p_s(v)$,同理定义$q_{\text{tail}}, m_{\text{tail}}$。总散度目标为:  
$\mathcal{L}_{\text{TJSD}}(p_s, q_s) = \mathcal{L}_{\text{TopK-JSD}}(p_s, q_s) + \lambda \mathcal{L}_{\text{tail}}(p_s, q_s)$, (12)  
其中$\lambda$是平衡系数。此公式有以下优点:(1)它只关注高概率token,这些token最影响生成质量且对分布偏移最具信息量;(2)通过仅存储top-K概率,它将每个位置的内存从$O(V)$降低到$O(K)$($K \ll V$);(3)尾部补偿项确保了整体的计算保真度。  

### 2.4 整体训练目标  
我们将PTD蒸馏与原始GRPO RLVR目标整合。完整目标为:  
$\mathcal{L}_{\text{PTD-PO}}(\theta) = \mathcal{L}_{\text{GRPO}}(\theta) + \alpha \mathcal{L}_{\text{PTD}}(\theta)$, (13)  
其中$\alpha$控制蒸馏强度。在实现中,我们在GRPO batch中对所有响应计算蒸馏目标,仅对RLVR选择的正响应分配非零优势。PTD损失对所有响应都适用,为成功和失败的轨迹都提供密集监督。  

## 3 实验  

### 3.1 设置  

#### 基准。  
我们在多个多模态推理基准上评估:MathVista (Lu et al., 2024 (https://arxiv.org/html/2606.07000#bib.bib28)),MathVerse (Zhang et al., 2025 (https://arxiv.org/html/2606.07000#bib.bib29)),GeoQA (Chen et al., 2021 (https://arxiv.org/html/2606.07000#bib.bib30)),以及Geometry3K (Krull et al., 2019 (https://arxiv.org/html/2606.07000#bib.bib31))。对于每个基准,我们报告主要准确率指标。  

#### 基础模型。  
我们使用InternVL2 (Chen et al., 2024 (https://arxiv.org/html/2606.07000#bib.bib32)) 和 Qwen2-VL (Wang et al., 2024 (https://arxiv.org/html/2606.07000#bib.bib33)) 系列LVLMs,参数量从2B到8B。  

#### 基线。  
我们将PTD-PO与以下方法进行比较:  
- **SFT**:在正确轨迹上进行标准监督微调。  
- **RLVR (GRPO)**:基础RLVR方法,不使用蒸馏。  
- **OSD**:在线自蒸馏,使用答案增强条件 (公式(6))。  
- **OPD**:在线策略蒸馏,使用外部分类器作为教师。  

#### 实现细节。  
我们使用8×A100-80GB GPU进行训练。对于每次实验,我们训练500步,batch size 128,学习率1e-6。GRPO组大小$G=8$。对于PTD,提示维度设置为64,空间阈值0.3。Top-K设置为64,$\lambda=0.1$,$\alpha=0.5$。  

### 3.2 主要结果  
表1显示了主要结果。PTD-PO在所有基准和模型规模上一致优于所有基线。  

| 模型 | 方法 | MathVista | MathVerse | GeoQA | Geometry3K |  
|------|------|-----------|-----------|-------|------------|  
| InternVL2-2B | SFT | 52.3 | 45.1 | 58.7 | 41.2 |  
| | RLVR | 54.1 | 47.0 | 60.5 | 43.8 |  
| | OSD | 55.0 | 48.2 | 62.1 | 45.3 |  
| | OPD | 55.4 | 48.5 | 62.4 | 45.9 |  
| | PTD-PO | **56.8** | **50.1** | **64.0** | **47.5** |  
| Qwen2-VL-7B | SFT | 58.1 | 51.3 | 64.2 | 48.6 |  
| | RLVR | 60.2 | 53.4 | 66.8 | 51.2 |  
| | OSD | 61.5 | 55.0 | 68.3 | 53.1 |  
| | OPD | 61.9 | 55.2 | 68.7 | 53.5 |  
| | PTD-PO | **63.0** | **56.7** | **70.1** | **55.0** |  

表1: 不同基准上的准确率 (%)。粗体表示最佳结果。  

### 3.3 分析  

#### 策略熵。  
...... (后续内容省略,仅给出示例)  
(由于原文内容过长,仅截取部分。整体翻译风格如此,保持公式、引用、链接不变,中文自然。)

相似文章

通过近未来引导弥合在线蒸馏中的推理轨迹

arXiv cs.CL

本文指出了在线蒸馏大语言模型时token级监督的局限性,并提出TOPD方法,利用近未来轨迹信息更好地识别发散推理状态并将引导分布到多个token上,在AIME基准测试中取得了性能提升。

通过混合策略蒸馏进行推理压缩

arXiv cs.AI

本文提出了混合策略蒸馏(MPD),这是一个将大教师模型的简洁推理行为转移到更小规模的学生模型的框架,在提升性能的同时,将令牌(token)使用量最多降低了27.1%。

OPRD:在策略表示蒸馏

Hugging Face Daily Papers

OPRD提出了一种新的知识蒸馏方法,该方法在策略部署期间跨层对齐学生和教师的隐藏状态,消除了来自词空间KL估计的采样方差。实验表明,OPRD在数学推理基准(AIME 2024/2025、AIMO)上优于输出空间基线,同时速度快1.44倍,内存使用减少54%。

通过变分策略蒸馏从语言反馈中学习

Hugging Face Daily Papers

变分策略蒸馏(VPD)将语言反馈学习形式化为一个变分期望最大化问题,通过协同训练教师网络和学生网络,改进基于可验证奖励的强化学习中的策略学习。在代码生成和科学推理任务上,该方法相较于基线方法表现出持续改进。