qwen-vl

#qwen-vl

OmniThoughtVis：一种用于部署型多模态推理模型的可扩展蒸馏流水线

arXiv cs.CL ↗ · 2026-05-13 缓存

本文介绍了 OmniThoughtVis，这是一种可扩展的流水线，用于将多模态推理能力从大型教师模型蒸馏到更小、面向部署的多模态大语言模型（MLLMs）中。该方法利用精心策划的思维链（chain-of-thought）数据，显著提升了从2B到8B参数规模模型在 MathVerse 和 MMMU-Pro 等基准测试上的推理性能。

0 人收藏 0 人点赞

#qwen-vl

面向视觉原生多模态深度搜索智能体的同策略数据演化

Hugging Face Daily Papers ↗ · 2026-05-11 缓存

本文介绍了同策略数据演化（ODE）和一种视觉原生智能体框架，以提升多模态深度搜索智能体的性能。通过实现视觉证据的可重用性和闭环数据生成，ODE 显著提升了 Qwen3-VL 智能体在多个基准测试中的表现，超越了 Gemini 2.5 Pro。

0 人收藏 0 人点赞

#qwen-vl

超越 SFT 到 RL：多模态强化学习中的黑盒策略蒸馏预对齐

Papers with Code Trending ↗ · 2026-05-01 缓存

本文介绍了 PRISM，一种在监督微调（SFT）和强化学习（RL）之间插入分布对齐阶段的方法，旨在缓解多模态模型中的分布漂移问题。该方法利用基于混合专家（MoE）判别器的黑盒对抗博弈，提升了如 Qwen3-VL 等模型的 RLVR 性能。

0 人收藏 0 人点赞

qwen-vl

OmniThoughtVis：一种用于部署型多模态推理模型的可扩展蒸馏流水线

面向视觉原生多模态深度搜索智能体的同策略数据演化

超越 SFT 到 RL：多模态强化学习中的黑盒策略蒸馏预对齐

提交意见反馈