标签
该论文介绍了 SeePhys Pro,这是一个用于诊断多模态强化学习(RL)中模态迁移问题的基准测试,揭示了模型在表征不变推理方面存在困难,且往往依赖残留的文本线索而非视觉证据。
本文介绍了 PRISM,一种在监督微调(SFT)和强化学习(RL)之间插入分布对齐阶段的方法,旨在缓解多模态模型中的分布漂移问题。该方法利用基于混合专家(MoE)判别器的黑盒对抗博弈,提升了如 Qwen3-VL 等模型的 RLVR 性能。