超越 SFT 到 RL：多模态强化学习中的黑盒策略蒸馏预对齐

Papers with Code Trending 2026/05/01 00:00 论文

摘要

本文介绍了 PRISM，一种在监督微调（SFT）和强化学习（RL）之间插入分布对齐阶段的方法，旨在缓解多模态模型中的分布漂移问题。该方法利用基于混合专家（MoE）判别器的黑盒对抗博弈，提升了如 Qwen3-VL 等模型的 RLVR 性能。

大型多模态模型（LMMs）的标准后训练方案通常包括在精选演示数据上进行监督微调（SFT），随后进行基于可验证奖励的强化学习（RLVR）。然而，SFT 会引入分布漂移，既无法保留模型的原始能力，也无法忠实匹配监督分布。在多模态推理中，这一问题被进一步放大，因为感知错误和推理失败遵循不同的漂移模式，并在随后的 RL 过程中相互叠加。我们引入了 PRISM，这是一个三阶段流水线，通过在 SFT 和 RLVR 之间插入显式的分布对齐阶段来缓解这种漂移。基于策略内蒸馏（On-Policy Distillation, OPD）的原则，PRISM 将对齐过程构建为策略与混合专家（MoE）判别器之间的黑盒、响应级对抗博弈。该判别器包含专门针对感知和推理的专家模块，提供解耦的校正信号，引导策略趋向于监督分布，且无需访问教师模型的 logits（对数几率）。虽然 126 万个公开演示数据足以进行广泛的 SFT 初始化，但分布对齐需要更高保真度的监督；因此，我们从 Gemini 3 Flash 中精选了 11.3 万个额外的演示数据，这些数据在最难未解问题上具有密集视觉定位和逐步推理特征。在 Qwen3-VL 上的实验表明，PRISM 在多种 RL 算法（GRPO、DAPO、GSPO）和多样化的多模态基准测试中，始终提升了下游 RLVR 的性能，相较于 SFT 到 RLVR 的基线，在 4B 和 8B 模型上的平均准确率分别提高了 4.4 和 6.0 个百分点。我们的代码、数据和模型检查点已公开，地址为 https://github.com/XIAO4579/PRISM。

查看原文

查看缓存全文

缓存时间: 2026/05/08 08:46

论文页面 - Beyond SFT-to-RL: Pre-alignment via Black-Box On-Policy Distillation for Multimodal RL

来源: https://huggingface.co/papers/2604.28123

摘要

PRISM 通过在监督微调（SFT）和基于可验证奖励的强化学习（RLVR）之间插入一个分布对齐阶段，利用策略与 MoE 判别器之间的黑盒对抗博弈生成解耦的纠正信号，从而解决多模态模型中的分布偏移问题。

大型多模态模型（LMMs）的标准后训练流程包括在精心策划的演示数据上进行监督微调（SFT），随后进行基于可验证奖励的强化学习（RLVR）。然而，SFT 会引入分布偏移（distributional drift），既无法保留模型的原始能力，也无法忠实匹配监督分布。这一问题在多模态推理（multimodal reasoning）中进一步被放大，因为感知错误和推理失败遵循不同的偏移模式，并在随后的 RL 过程中相互叠加。我们提出了 PRISM，这是一个三阶段流水线，通过在 SFT 和 RLVR 之间插入显式的分布对齐阶段来缓解这种偏移。基于在线策略蒸馏（on-policy distillation）（OPD）的原理，PRISM 将对齐任务建模为策略（policy）与混合专家（Mixture-of-Experts）（MoE）判别器之间的黑盒、响应级对抗博弈（response-level adversarial game），其中判别器包含专用的感知和推理专家，提供解耦的纠正信号，引导策略（policy）向监督分布靠拢，而无需访问教师模型的 logits。虽然 126 万条公共演示数据足以进行广泛的 SFT 初始化，但分布对齐需要更高保真度的监督数据；因此，我们从 Gemini 3 Flash 中精心策划了 11.3 万条额外的演示数据，这些数据在最具挑战性的未解问题上具备密集的视觉定位（visual grounding）和逐步推理（step-by-step reasoning）。在 Qwen3-VL 上的实验表明，PRISM 在多种 RL 算法（GRPO, DAPO, GSPO）和多样的多模态基准测试中，持续提升了下游 RLVR 的性能，相较于 SFT-to-RLVR 基线，4B 和 8B 模型的平均准确率分别提高了 4.4 和 6.0 个点。我们的代码、数据和模型检查点已公开于 https://github.com/XIAO4579/PRISM。

查看 arXiv 页面 (https://arxiv.org/abs/2604.28123) 查看 PDF (https://arxiv.org/pdf/2604.28123) 项目页面 (https://xiao4579.github.io/PRISM/) GitHub 63 (https://github.com/XIAO4579/PRISM) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.28123)

在您的代理中获取此论文：

hf papers read 2604\.28123

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 6

prism-vlm/Qwen3-VL-4B-Instruct-SFT-PRISM-GRPO 图像-文本到文本 • 5B • 2 天前更新 • 41 (https://huggingface.co/prism-vlm/Qwen3-VL-4B-Instruct-SFT-PRISM-GRPO)

prism-vlm/Qwen3-VL-4B-Instruct-SFT-PRISM-GSPO 图像-文本到文本 • 5B • 2 天前更新 • 42 (https://huggingface.co/prism-vlm/Qwen3-VL-4B-Instruct-SFT-PRISM-GSPO)

prism-vlm/Qwen3-VL-4B-Instruct-SFT-PRISM-DAPO 图像-文本到文本 • 5B • 2 天前更新 • 53 (https://huggingface.co/prism-vlm/Qwen3-VL-4B-Instruct-SFT-PRISM-DAPO)

prism-vlm/Qwen3-VL-8B-Instruct-SFT-PRISM-GSPO 图像-文本到文本 • 9B • 2 天前更新 • 35 (https://huggingface.co/prism-vlm/Qwen3-VL-8B-Instruct-SFT-PRISM-GSPO)

浏览引用此论文的 6 个模型 (https://huggingface.co/models?other=arxiv:2604.28123)

引用此论文的数据集 3

prism-vlm/gemini_public_mmr1 查看器 • 2 天前更新 • 127 万 • 408 • 2 (https://huggingface.co/datasets/prism-vlm/gemini_public_mmr1)

prism-vlm/gemini_distill 查看器 • 2 天前更新 • 10.8 万 • 210 (https://huggingface.co/datasets/prism-vlm/gemini_distill)

prism-vlm/rl_dataset 查看器 • 2 天前更新 • 2.03 万 • 48 (https://huggingface.co/datasets/prism-vlm/rl_dataset)

引用此论文的空间 0

没有链接此论文的空间

在 Space README.md 中引用 arxiv.org/abs/2604.28123 即可从此页面链接它。

超越 SFT 到 RL：多模态强化学习中的黑盒策略蒸馏预对齐

论文页面 - Beyond SFT-to-RL: Pre-alignment via Black-Box On-Policy Distillation for Multimodal RL

摘要

引用此论文的模型 6

prism-vlm/Qwen3-VL-4B-Instruct-SFT-PRISM-GRPO 图像-文本到文本 • 5B • 2 天前更新 • 41 (https://huggingface.co/prism-vlm/Qwen3-VL-4B-Instruct-SFT-PRISM-GRPO)

prism-vlm/Qwen3-VL-4B-Instruct-SFT-PRISM-GSPO 图像-文本到文本 • 5B • 2 天前更新 • 42 (https://huggingface.co/prism-vlm/Qwen3-VL-4B-Instruct-SFT-PRISM-GSPO)

prism-vlm/Qwen3-VL-4B-Instruct-SFT-PRISM-DAPO 图像-文本到文本 • 5B • 2 天前更新 • 53 (https://huggingface.co/prism-vlm/Qwen3-VL-4B-Instruct-SFT-PRISM-DAPO)

prism-vlm/Qwen3-VL-8B-Instruct-SFT-PRISM-GSPO 图像-文本到文本 • 9B • 2 天前更新 • 35 (https://huggingface.co/prism-vlm/Qwen3-VL-8B-Instruct-SFT-PRISM-GSPO)

引用此论文的数据集 3

prism-vlm/gemini_public_mmr1 查看器 • 2 天前更新 • 127 万 • 408 • 2 (https://huggingface.co/datasets/prism-vlm/gemini_public_mmr1)

prism-vlm/gemini_distill 查看器 • 2 天前更新 • 10.8 万 • 210 (https://huggingface.co/datasets/prism-vlm/gemini_distill)

prism-vlm/rl_dataset 查看器 • 2 天前更新 • 2.03 万 • 48 (https://huggingface.co/datasets/prism-vlm/rl_dataset)

引用此论文的空间 0

包含此论文的收藏集 2

相似文章

当RL在SFT后失效：恢复模型可塑性以实现稳健的SFT到RL交接

分布视角下的 SFT、RL 与 On-Policy Distillation（19 分钟阅读）

@SOURADIPCHAKR18：典型的RL算法和同策略蒸馏方法是盲目采样器：它们使用特权信息来评分rollouts……

预训练期间的RL探索：重新审视LLM训练的策略优化

面向多模态推理的结构化角色感知策略优化

提交意见反馈