标签
本文介绍了 OmniThoughtVis,这是一种可扩展的流水线,用于将多模态推理能力从大型教师模型蒸馏到更小、面向部署的多模态大语言模型(MLLMs)中。该方法利用精心策划的思维链(chain-of-thought)数据,显著提升了从2B到8B参数规模模型在 MathVerse 和 MMMU-Pro 等基准测试上的推理性能。
本文介绍了同策略数据演化(ODE)和一种视觉原生智能体框架,以提升多模态深度搜索智能体的性能。通过实现视觉证据的可重用性和闭环数据生成,ODE 显著提升了 Qwen3-VL 智能体在多个基准测试中的表现,超越了 Gemini 2.5 Pro。
本文介绍了 PRISM,一种在监督微调(SFT)和强化学习(RL)之间插入分布对齐阶段的方法,旨在缓解多模态模型中的分布漂移问题。该方法利用基于混合专家(MoE)判别器的黑盒对抗博弈,提升了如 Qwen3-VL 等模型的 RLVR 性能。