超越 SFT 到 RL:多模态强化学习中的黑盒策略蒸馏预对齐
摘要
本文介绍了 PRISM,一种在监督微调(SFT)和强化学习(RL)之间插入分布对齐阶段的方法,旨在缓解多模态模型中的分布漂移问题。该方法利用基于混合专家(MoE)判别器的黑盒对抗博弈,提升了如 Qwen3-VL 等模型的 RLVR 性能。
查看缓存全文
缓存时间: 2026/05/08 08:46
论文页面 - Beyond SFT-to-RL: Pre-alignment via Black-Box On-Policy Distillation for Multimodal RL
来源: https://huggingface.co/papers/2604.28123
摘要
PRISM 通过在监督微调(SFT)和基于可验证奖励的强化学习(RLVR)之间插入一个分布对齐阶段,利用策略与 MoE 判别器之间的黑盒对抗博弈生成解耦的纠正信号,从而解决多模态模型中的分布偏移问题。
大型多模态模型(LMMs)的标准后训练流程包括在精心策划的演示数据上进行监督微调(SFT),随后进行基于可验证奖励的强化学习(RLVR)。然而,SFT 会引入分布偏移(distributional drift),既无法保留模型的原始能力,也无法忠实匹配监督分布。这一问题在多模态推理(multimodal reasoning)中进一步被放大,因为感知错误和推理失败遵循不同的偏移模式,并在随后的 RL 过程中相互叠加。我们提出了 PRISM,这是一个三阶段流水线,通过在 SFT 和 RLVR 之间插入显式的分布对齐阶段来缓解这种偏移。基于在线策略蒸馏(on-policy distillation)(OPD)的原理,PRISM 将对齐任务建模为策略(policy)与混合专家(Mixture-of-Experts)(MoE)判别器之间的黑盒、响应级对抗博弈(response-level adversarial game),其中判别器包含专用的感知和推理专家,提供解耦的纠正信号,引导策略(policy)向监督分布靠拢,而无需访问教师模型的 logits。虽然 126 万条公共演示数据足以进行广泛的 SFT 初始化,但分布对齐需要更高保真度的监督数据;因此,我们从 Gemini 3 Flash 中精心策划了 11.3 万条额外的演示数据,这些数据在最具挑战性的未解问题上具备密集的视觉定位(visual grounding)和逐步推理(step-by-step reasoning)。在 Qwen3-VL 上的实验表明,PRISM 在多种 RL 算法(GRPO, DAPO, GSPO)和多样的多模态基准测试中,持续提升了下游 RLVR 的性能,相较于 SFT-to-RLVR 基线,4B 和 8B 模型的平均准确率分别提高了 4.4 和 6.0 个点。我们的代码、数据和模型检查点已公开于 https://github.com/XIAO4579/PRISM。
查看 arXiv 页面 (https://arxiv.org/abs/2604.28123) 查看 PDF (https://arxiv.org/pdf/2604.28123) 项目页面 (https://xiao4579.github.io/PRISM/) GitHub 63 (https://github.com/XIAO4579/PRISM) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.28123)
在您的代理中获取此论文:
hf papers read 2604\.28123
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 6
prism-vlm/Qwen3-VL-4B-Instruct-SFT-PRISM-GRPO 图像-文本到文本 • 5B • 2 天前更新 • 41 (https://huggingface.co/prism-vlm/Qwen3-VL-4B-Instruct-SFT-PRISM-GRPO)
prism-vlm/Qwen3-VL-4B-Instruct-SFT-PRISM-GSPO 图像-文本到文本 • 5B • 2 天前更新 • 42 (https://huggingface.co/prism-vlm/Qwen3-VL-4B-Instruct-SFT-PRISM-GSPO)
prism-vlm/Qwen3-VL-4B-Instruct-SFT-PRISM-DAPO 图像-文本到文本 • 5B • 2 天前更新 • 53 (https://huggingface.co/prism-vlm/Qwen3-VL-4B-Instruct-SFT-PRISM-DAPO)
prism-vlm/Qwen3-VL-8B-Instruct-SFT-PRISM-GSPO 图像-文本到文本 • 9B • 2 天前更新 • 35 (https://huggingface.co/prism-vlm/Qwen3-VL-8B-Instruct-SFT-PRISM-GSPO)
浏览引用此论文的 6 个模型 (https://huggingface.co/models?other=arxiv:2604.28123)
引用此论文的数据集 3
prism-vlm/gemini_public_mmr1 查看器 • 2 天前更新 • 127 万 • 408 • 2 (https://huggingface.co/datasets/prism-vlm/gemini_public_mmr1)
prism-vlm/gemini_distill 查看器 • 2 天前更新 • 10.8 万 • 210 (https://huggingface.co/datasets/prism-vlm/gemini_distill)
prism-vlm/rl_dataset 查看器 • 2 天前更新 • 2.03 万 • 48 (https://huggingface.co/datasets/prism-vlm/rl_dataset)
引用此论文的空间 0
没有链接此论文的空间
在 Space README.md 中引用 arxiv.org/abs/2604.28123 即可从此页面链接它。
包含此论文的收藏集 2
相似文章
当RL在SFT后失效:恢复模型可塑性以实现稳健的SFT到RL交接
本文研究了在大型语言模型的先SFT后RL流程中,过度监督微调(SFT)后模型可塑性的丧失问题,并提出了一种名为Rejuvenation的方法,该方法通过基于基线的模型融合和定向神经元重置来恢复可塑性,从而持续提升RL性能。
分布视角下的 SFT、RL 与 On-Policy Distillation(19 分钟阅读)
本文从分布视角分析语言模型的后训练方法,对比 SFT、RL 和 On-Policy Distillation 如何重塑模型分布,及其对灾难性遗忘等现象的影响。
@SOURADIPCHAKR18:典型的RL算法和同策略蒸馏方法是盲目采样器:它们使用特权信息来评分rollouts……
这项工作提出使用特权信息来主动采样强化学习中的rollouts,改进了典型的盲目采样方法。
预训练期间的RL探索:重新审视LLM训练的策略优化
哈佛大学的研究人员挑战了标准的LLM训练流程,证明强化学习可以在预训练期间有效应用,而不仅仅是在SFT之后。他们发现数据组成比模型规模更重要,并提出并行平均RL和SFT目标的方法,该方法在所有讨论的其他训练方法中表现出色,跨所有指标均优于它们,同时保持了通用能力。
面向多模态推理的结构化角色感知策略优化
本文介绍了结构化角色感知策略优化(SRPO),该方法通过在大视觉-语言模型的强化学习框架内,根据感知和推理的不同角色分配令牌级信用,从而提升多模态推理能力。