multimodal-rl

标签

Cards List
#multimodal-rl

SeePhys Pro:诊断多模态 RLVR 在物理推理中的模态迁移与盲训练效应

Hugging Face Daily Papers · 2026-05-10 缓存

该论文介绍了 SeePhys Pro,这是一个用于诊断多模态强化学习(RL)中模态迁移问题的基准测试,揭示了模型在表征不变推理方面存在困难,且往往依赖残留的文本线索而非视觉证据。

0 人收藏 0 人点赞
#multimodal-rl

超越 SFT 到 RL:多模态强化学习中的黑盒策略蒸馏预对齐

Papers with Code Trending · 2026-05-01 缓存

本文介绍了 PRISM,一种在监督微调(SFT)和强化学习(RL)之间插入分布对齐阶段的方法,旨在缓解多模态模型中的分布漂移问题。该方法利用基于混合专家(MoE)判别器的黑盒对抗博弈,提升了如 Qwen3-VL 等模型的 RLVR 性能。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈