超越 SFT 到 RL:多模态强化学习中的黑盒策略蒸馏预对齐

Papers with Code Trending 论文

摘要

本文介绍了 PRISM,一种在监督微调(SFT)和强化学习(RL)之间插入分布对齐阶段的方法,旨在缓解多模态模型中的分布漂移问题。该方法利用基于混合专家(MoE)判别器的黑盒对抗博弈,提升了如 Qwen3-VL 等模型的 RLVR 性能。

大型多模态模型(LMMs)的标准后训练方案通常包括在精选演示数据上进行监督微调(SFT),随后进行基于可验证奖励的强化学习(RLVR)。然而,SFT 会引入分布漂移,既无法保留模型的原始能力,也无法忠实匹配监督分布。在多模态推理中,这一问题被进一步放大,因为感知错误和推理失败遵循不同的漂移模式,并在随后的 RL 过程中相互叠加。我们引入了 PRISM,这是一个三阶段流水线,通过在 SFT 和 RLVR 之间插入显式的分布对齐阶段来缓解这种漂移。基于策略内蒸馏(On-Policy Distillation, OPD)的原则,PRISM 将对齐过程构建为策略与混合专家(MoE)判别器之间的黑盒、响应级对抗博弈。该判别器包含专门针对感知和推理的专家模块,提供解耦的校正信号,引导策略趋向于监督分布,且无需访问教师模型的 logits(对数几率)。虽然 126 万个公开演示数据足以进行广泛的 SFT 初始化,但分布对齐需要更高保真度的监督;因此,我们从 Gemini 3 Flash 中精选了 11.3 万个额外的演示数据,这些数据在最难未解问题上具有密集视觉定位和逐步推理特征。在 Qwen3-VL 上的实验表明,PRISM 在多种 RL 算法(GRPO、DAPO、GSPO)和多样化的多模态基准测试中,始终提升了下游 RLVR 的性能,相较于 SFT 到 RLVR 的基线,在 4B 和 8B 模型上的平均准确率分别提高了 4.4 和 6.0 个百分点。我们的代码、数据和模型检查点已公开,地址为 https://github.com/XIAO4579/PRISM。
查看原文
查看缓存全文

缓存时间: 2026/05/08 08:46

论文页面 - Beyond SFT-to-RL: Pre-alignment via Black-Box On-Policy Distillation for Multimodal RL

来源: https://huggingface.co/papers/2604.28123

摘要

PRISM 通过在监督微调(SFT)和基于可验证奖励的强化学习(RLVR)之间插入一个分布对齐阶段,利用策略与 MoE 判别器之间的黑盒对抗博弈生成解耦的纠正信号,从而解决多模态模型中的分布偏移问题。

大型多模态模型(LMMs)的标准后训练流程包括在精心策划的演示数据上进行监督微调SFT),随后进行基于可验证奖励的强化学习RLVR)。然而,SFT 会引入分布偏移distributional drift),既无法保留模型的原始能力,也无法忠实匹配监督分布。这一问题在多模态推理multimodal reasoning)中进一步被放大,因为感知错误和推理失败遵循不同的偏移模式,并在随后的 RL 过程中相互叠加。我们提出了 PRISM,这是一个三阶段流水线,通过在 SFT 和 RLVR 之间插入显式的分布对齐阶段来缓解这种偏移。基于在线策略蒸馏on-policy distillation)(OPD)的原理,PRISM 将对齐任务建模为策略policy)与混合专家Mixture-of-Experts)(MoE)判别器之间的黑盒、响应级对抗博弈response-level adversarial game),其中判别器包含专用的感知和推理专家,提供解耦的纠正信号,引导策略policy)向监督分布靠拢,而无需访问教师模型的 logits。虽然 126 万条公共演示数据足以进行广泛的 SFT 初始化,但分布对齐需要更高保真度的监督数据;因此,我们从 Gemini 3 Flash 中精心策划了 11.3 万条额外的演示数据,这些数据在最具挑战性的未解问题上具备密集的视觉定位visual grounding)和逐步推理step-by-step reasoning)。在 Qwen3-VL 上的实验表明,PRISM 在多种 RL 算法(GRPO, DAPO, GSPO)和多样的多模态基准测试中,持续提升了下游 RLVR 的性能,相较于 SFT-to-RLVR 基线,4B 和 8B 模型的平均准确率分别提高了 4.4 和 6.0 个点。我们的代码、数据和模型检查点已公开于 https://github.com/XIAO4579/PRISM。

查看 arXiv 页面 (https://arxiv.org/abs/2604.28123) 查看 PDF (https://arxiv.org/pdf/2604.28123) 项目页面 (https://xiao4579.github.io/PRISM/) GitHub 63 (https://github.com/XIAO4579/PRISM) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.28123)

在您的代理中获取此论文:

hf papers read 2604\.28123

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 6

prism-vlm/Qwen3-VL-4B-Instruct-SFT-PRISM-GRPO 图像-文本到文本 • 5B • 2 天前更新 • 41 (https://huggingface.co/prism-vlm/Qwen3-VL-4B-Instruct-SFT-PRISM-GRPO)

prism-vlm/Qwen3-VL-4B-Instruct-SFT-PRISM-GSPO 图像-文本到文本 • 5B • 2 天前更新 • 42 (https://huggingface.co/prism-vlm/Qwen3-VL-4B-Instruct-SFT-PRISM-GSPO)

prism-vlm/Qwen3-VL-4B-Instruct-SFT-PRISM-DAPO 图像-文本到文本 • 5B • 2 天前更新 • 53 (https://huggingface.co/prism-vlm/Qwen3-VL-4B-Instruct-SFT-PRISM-DAPO)

prism-vlm/Qwen3-VL-8B-Instruct-SFT-PRISM-GSPO 图像-文本到文本 • 9B • 2 天前更新 • 35 (https://huggingface.co/prism-vlm/Qwen3-VL-8B-Instruct-SFT-PRISM-GSPO)

浏览引用此论文的 6 个模型 (https://huggingface.co/models?other=arxiv:2604.28123)

引用此论文的数据集 3

prism-vlm/gemini_public_mmr1 查看器 • 2 天前更新 • 127 万 • 408 • 2 (https://huggingface.co/datasets/prism-vlm/gemini_public_mmr1)

prism-vlm/gemini_distill 查看器 • 2 天前更新 • 10.8 万 • 210 (https://huggingface.co/datasets/prism-vlm/gemini_distill)

prism-vlm/rl_dataset 查看器 • 2 天前更新 • 2.03 万 • 48 (https://huggingface.co/datasets/prism-vlm/rl_dataset)

引用此论文的空间 0

没有链接此论文的空间

在 Space README.md 中引用 arxiv.org/abs/2604.28123 即可从此页面链接它。

包含此论文的收藏集 2

相似文章

当RL在SFT后失效:恢复模型可塑性以实现稳健的SFT到RL交接

arXiv cs.LG

本文研究了在大型语言模型的先SFT后RL流程中,过度监督微调(SFT)后模型可塑性的丧失问题,并提出了一种名为Rejuvenation的方法,该方法通过基于基线的模型融合和定向神经元重置来恢复可塑性,从而持续提升RL性能。

预训练期间的RL探索:重新审视LLM训练的策略优化

arXiv cs.LG

哈佛大学的研究人员挑战了标准的LLM训练流程,证明强化学习可以在预训练期间有效应用,而不仅仅是在SFT之后。他们发现数据组成比模型规模更重要,并提出并行平均RL和SFT目标的方法,该方法在所有讨论的其他训练方法中表现出色,跨所有指标均优于它们,同时保持了通用能力。

面向多模态推理的结构化角色感知策略优化

arXiv cs.AI

本文介绍了结构化角色感知策略优化(SRPO),该方法通过在大视觉-语言模型的强化学习框架内,根据感知和推理的不同角色分配令牌级信用,从而提升多模态推理能力。