multimodal-rl

#multimodal-rl

SeePhys Pro：诊断多模态 RLVR 在物理推理中的模态迁移与盲训练效应

Hugging Face Daily Papers ↗ · 2026-05-10 缓存

该论文介绍了 SeePhys Pro，这是一个用于诊断多模态强化学习（RL）中模态迁移问题的基准测试，揭示了模型在表征不变推理方面存在困难，且往往依赖残留的文本线索而非视觉证据。

0 人收藏 0 人点赞

#multimodal-rl

Papers with Code Trending ↗ · 2026-05-01 缓存

本文介绍了 PRISM，一种在监督微调（SFT）和强化学习（RL）之间插入分布对齐阶段的方法，旨在缓解多模态模型中的分布漂移问题。该方法利用基于混合专家（MoE）判别器的黑盒对抗博弈，提升了如 Qwen3-VL 等模型的 RLVR 性能。

0 人收藏 0 人点赞