OmniThoughtVis:一种用于部署型多模态推理模型的可扩展蒸馏流水线

arXiv cs.CL 论文

摘要

本文介绍了 OmniThoughtVis,这是一种可扩展的流水线,用于将多模态推理能力从大型教师模型蒸馏到更小、面向部署的多模态大语言模型(MLLMs)中。该方法利用精心策划的思维链(chain-of-thought)数据,显著提升了从2B到8B参数规模模型在 MathVerse 和 MMMU-Pro 等基准测试上的推理性能。

arXiv:2605.11629v1 公告类型:new 摘要:近期,多模态大语言模型(MLLMs)在视觉-语言任务上展现出强大的思维链(CoT)推理能力,但其在实际系统中的直接部署往往受到延迟和资源限制的影响。在实际应用中,更小的 MLLMs 更受线上服务的青睐,然而其推理性能受限于缺乏大规模、高质量的多模态 CoT 监督数据。在本文中,我们提出了 OmniThoughtVis,这是一种可扩展的数据策展与蒸馏流水线,旨在将多模态推理能力从高容量教师模型转移到更小、面向部署的 MLLMs 中。该流水线始于一个多样化的开源种子池,生成结构化的 CoT 轨迹,并对推理难度、答案质量和语义任务标签进行联合标注。为了在大规模下保持数据质量,我们结合了基于规则的过滤、难度感知选择和基于标签的多样性采样,最终形成一个包含180万个样本的精选语料库,支持下游训练的可控子集构建。我们利用 OmniThoughtVis 对从2B到8B参数的 Qwen3-VL 模型进行蒸馏,并在九个多模态推理基准上对其进行评估。结果表明,蒸馏后的模型在不同规模下均表现出一致的性能提升,其中4B模型在 MathVerse 上的得分提升了高达16.8分,在 MMMU-Pro 上提升了5.6分。值得注意的是,蒸馏后的4B模型在几项任务上的表现匹配甚至超过了未蒸馏的8B基线模型,凸显了可扩展推理蒸馏对于面向部署的 MLLMs 的实际价值。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/13 06:16

# OmniThoughtVis:一种用于部署型多模态推理模型的可扩展蒸馏流水线

**来源:** https://arxiv.org/html/2605.11629  
**作者:** Yuanhao Yue, Chengyu Wang, Yuanjie Lyu, Lei Shen, Jun Huang  
**机构:** 阿里巴巴集团,中国杭州  
**邮箱:** {yueyuanhao.yyh, chengyu.wcy, lyuyuanjie.lyj, yuzhou.sl, huangjun.hj}@alibaba-inc.com

###### 摘要

最近的多模态大语言模型(MLLMs)在视觉-语言任务上表现出强大的思维链(CoT)推理能力,但其直接部署到现实系统中通常受到延迟和资源限制的影响。在实践中,较小的 MLLM 更受在线服务环境的青睐,但其推理性能受限于缺乏大规模、高质量的多模态 CoT 监督数据。在本文中,我们提出了 **OmniThoughtVis**,这是一种可扩展的数据整理和蒸馏流水线,用于将多模态推理能力从高容量教师模型转移到更小、面向部署的 MLLM 中。我们的流水线从一个多样化的开源种子池开始,生成结构化的 CoT 轨迹,并对推理难度、答案质量和语义任务标签进行联合标注。为了在大规模下保持数据质量,我们结合了基于规则的过滤、难度感知的选择以及基于标签的多样性采样,最终整理出包含 180 万个样本的语料库,支持为下游训练构建可控的子集。我们使用 **OmniThoughtVis** 对参数规模从 2B 到 8B 的 Qwen3-VL 模型进行蒸馏,并在九个多模态推理基准测试上评估它们。蒸馏后的模型在不同规模下均表现出一致的提升,其中 4B 模型在 MathVerse 上提升了高达 +16.8 分,在 MMMU-Pro 上提升了 +5.6 分。值得注意的是,蒸馏后的 4B 模型在几项任务上匹配或超越了未蒸馏的 8B 基线模型,突显了面向部署的 MLLM 的可扩展推理蒸馏的实际价值。

---

## 1 引言

最近的多模态大语言模型(MLLMs)在广泛的视觉-语言任务上展示了强大的思维链(CoT)推理能力 (Bai et al., 2025b)。然而,将这些模型直接部署到现实应用中仍然充满挑战:大型模型通常会产生显著的延迟、内存占用和服务成本,而更适合在线推理的小型模型往往在推理密集型任务上表现不佳 (Hinton et al., 2015; Yang et al., 2025; Wang et al., 2025)。这就在前沿 MLLM 的推理质量与面向部署系统的效率要求之间造成了实际差距。

一个核心瓶颈是缺乏大规模、高质量的多模态推理监督数据。在文本领域,几个大规模的 CoT 语料库加速了自然语言推理的进展 (Chung et al., 2024; Toshniwal et al., 2024; Yu et al., 2024; Cai et al., 2025)。相比之下,开放的多模态数据集仍然主要由指令微调或最终答案监督主导,缺乏对结构化、逐步推理迁移的支持 (Liu et al., 2023; Chen et al., 2024a; Li et al., 2025)。因此,在此类数据上微调的小型 MLLM 通常表现出浅层的推理行为,并在组合或多步任务上表现挣扎。

此外,在实践中,天真地大规模生成多模态 CoT 数据是不够的:合成轨迹可能充满噪声、冗余,并且在任务类型上的分布不均匀,从而降低了其在可靠蒸馏中的有用性。最近的努力,如 BEE (Zhang et al., 2026) 和 OpenMMReasoner (Zhang et al., 2025a),推动了开放多模态数据整理和可复现的训练流水线。我们的工作与这些努力相辅相成,但关注不同的实际目标:通过可控的大规模蒸馏流水线,将推理能力转移到更小、面向部署的 MLLM 中。

具体而言,我们没有将源语料库视为即拿即用的训练数据集,而是将其视为种子池,并通过生成结构化 CoT 轨迹、附加推理难度、答案质量和语义任务标签的联合注释,以及应用过滤和多样性感知的子集选择用于下游训练,将其转化为面向蒸馏的推理语料库。为此,我们提出了 **OmniThoughtVis**,一个用于多模态推理的可扩展数据整理和蒸馏流水线。

我们评估了参数规模从 2B 到 8B 的蒸馏版 Qwen3-VL 模型在九个多模态推理基准测试上的表现。**OmniThoughtVis** 的蒸馏导致了跨模型规模的一致改进,其中 4B 模型在 MathVerse 上提升了高达 +16.8 分,在 MMMU-Pro 上提升了 +5.6 分。值得注意的是,蒸馏后的 4B 模型在几项任务上匹配或超越了未蒸馏的 8B 基线,表明面向部署的多模态推理系统具有有利的质量-效率权衡。

为了支持可复现的研究和实际开发,我们将发布整理后的数据集、数据流水线和模型检查点。我们的主要贡献如下:

- 我们提出了 **OmniThoughtVis**,一个可扩展的流水线,用于生产针对将推理能力蒸馏到更小、面向部署的 MLLM 中的多模态 CoT 监督数据。
- 我们引入了一种实用的数据整理方案,结合了结构化教师生成、联合注释、难度感知过滤和多样性感知采样,实现了百万级样本规模下可控的推理数据构建。
- 我们展示了 **OmniThoughtVis** 在九个基准测试上持续改进了蒸馏后的 2B–8B 模型,并报告了关于数据选择和扩展行为的实际观察结果,这些对构建高效的多模态推理系统很有用。

## 2 相关工作

### 具有扩展推理能力的模型
思维链(CoT)提示 (Wei et al., 2022) 表明,暴露中间推理步骤可以显著提高模型在复杂任务上的性能。后续工作探索了使用教师生成的理由或逐步监督将此类推理行为转移到较小模型中 (Hsieh et al., 2023; Ho et al., 2023; Mukherjee et al., 2023)。最近,带有可验证奖励的强化学习进一步加强了前沿模型的长形式推理,如 DeepSeek-R1 (DeepSeek-AI, 2025) 和 OpenAI o1 所示。与此同时,社区开始为开放模型整理大规模推理数据集 (Guha et al., 2026; Cai et al., 2025)。我们的工作与这些努力相辅相成:我们不是提出新的推理算法,而是专注于为蒸馏面向部署的 MLLM 生产可扩展的多模态推理监督这一实际问题。

### 多模态数据整理与推理监督
大量先前的工作通过指令微调和合成数据生成改进了多模态模型。LLaVA (Liu et al., 2023) 引入了由 GPT 生成对话的视觉指令微调,但其监督主要是短形式的,不提供结构化推理轨迹。ScienceQA (Lu et al., 2022) 包含 CoT 风格的解释,但其规模有限且领域局限于科学问题。ShareGPT4V (Chen et al., 2024a) 使用 GPT-4V 扩展视觉描述数据,但主要针对感知接地而非多步推理。Cambrian-1 (Tong et al., 2024) 聚合了多样化的视觉-语言资源以进行广泛的指令微调,但并未明确优化向较小模型的推理导向蒸馏。更近期的开放努力,如 BEE (Zhang et al., 2026) 和 OpenMMReasoner (Zhang et al., 2025a),将多模态数据整理和可复现训练推向更强大的推理模型。我们的工作侧重点不同。我们并不将大型开放语料库视为直接可用的训练数据,而是将其视为在实用约束下构建面向蒸馏的推理语料库的种子池。**OmniThoughtVis** 增加了三个关键要素:(1) 在明确输出约束下生成的结构化 CoT 轨迹,(2) 推理难度、答案质量和语义任务标签的联合注释,以及 (3) 旨在改进向较小模型推理迁移的过滤和多样性感知子集选择。这种组合使得对训练数据组成的更精细控制成为可能,并支持百万级样本规模的实用多模态推理蒸馏。

> **图 1:** **OmniThoughtVis** 数据整理和蒸馏流水线的概述。从广泛的开源种子池开始,我们生成结构化多模态 CoT 轨迹,应用联合注释和质量控制,并构建训练子集以蒸馏更小的具备推理能力的 MLLM。

## 3 方法论

接下来我们描述 **OmniThoughtVis** 流水线,用于从开源种子数据构建面向蒸馏的多模态推理语料库。图 1 提供了概述。我们的目标不仅仅是聚合更多的多模态样本,而是将广泛的种子池转化为一个整理后的语料库,支持向更小、面向部署的 MLLM 的可控推理迁移。

### 3.1 种子数据采样

我们从 FineVision (Wiedmann et al., 2025) 开始,这是一个大规模聚合的公开可用开源数据集,涵盖视觉问答、图表理解、数学推理和一般视觉推理。在我们的流水线中,FineVision 作为*种子池*,而不是即拿即用的推理数据集。我们使用分层采样从中采样,以保持领域和任务多样性,同时将每个类别限制在 20,000 个样本以内,以防止少量高频来源主导候选池。此过程产生了一个包含 350 万个多模态样本的初始池,涵盖广泛的领域和任务类型。

### 3.2 带有格式约束的蒸馏

我们使用 Qwen-VL-Max (Bai et al., 2025a) 作为教师模型,为保留的样本生成 CoT 轨迹。解码采用温度 $T=0.5$ 进行,我们发现这在轨迹多样性和输出稳定性之间提供了实用的平衡,最大生成长度设置为 8192 个 token。为了使输出更易于大规模解析、评分和过滤,我们强制采用结构化的 XML 风格格式,明确分离推理轨迹和最终答案,如下所示。不满足所需格式的样本将在后续质量控制期间移除。详细提示见附录 A.1。

```xml
<reasoning>
Step-by-step reasoning trace
</reasoning>
<answer>
Final answer
</answer>
```

这种显式结构服务于两个实际目的。首先,它支持大规模自动整理的稳健下游解析。其次,它支持在过滤、评估和数据集的未来重用期间对中间推理和最终预测进行单独处理。

### 3.3 联合评分与语义标签

我们流水线的核心组件是*联合*注释每个生成的样本,涉及三个维度:推理难度、答案质量和语义任务标签。给定图像、指令和教师响应,我们提示一个评分模型输出包含这些字段的 JSON 对象。联合注释减少了冗余的推理传递,并有助于在百万级样本规模下保持注释的一致性。

- **难度 (1–5):** 此分数反映基础任务的认知复杂性。1 级对应简单的识别,如物体存在、颜色或形状识别。2 级涵盖基本计数或空间关系。3 级涉及对动作或属性的中等推理。4 级表示更具挑战性的多步推理,涉及细微的视觉线索或不常见的概念。5 级代表抽象推理、复杂的场景理解或模糊上下文。
- **质量 (1–5):** 此分数反映生成响应的估计正确性和完整性。1 级表示完全错误或无关的答案,3 级表示部分正确,5 级表示判断为准确且完整的响应。
- **语义标签:** 我们另外生成一组任务标签(例如,counting, spatial, reasoning, math, object)来表征样本。评分器仅输出 JSON 对象,从而支持稳健的自动解析和下游选择。常见标签可视化见图 2。

我们使用 Qwen3-VL-Flash 作为评分器,因为注释吞吐量是百万级样本整理的实际瓶颈,而该模型在多模态理解质量和推理效率之间提供了有利的权衡。这种 LLM-as-a-judge 设置 (Zheng et al., 2023) 提供了一种可扩展的方法来为生成的轨迹附加元数据。在我们的实验中,难度证明是下游数据选择最可操作的信号,而质量分数作为辅助检查信号比作为强独立过滤器更有用。

> **图 2:** **OmniThoughtVis** 中前 400 个任务相关标签的词云可视化。频繁的标签如 reasoning, comparison, count, object 和 scene 表明在视觉理解和多模态推理任务中具有广泛的语义覆盖范围。

### 3.4 质量控制与子集构建

我们分三个阶段应用质量控制,然后构建用于训练的子集。

**阶段 1(基于规则的过滤):** 我们移除那些 (i) 缺乏所需... *(原文在此处截断)*

相似文章

通过混合层蒸馏和关键信息的逐步注意力改进小模型的推理能力

arXiv cs.CL

本文提出一种新颖的思维链蒸馏框架,通过混合层模块的动态层对齐,将教师模型对关键信息的逐步注意力转移到学生模型中。该方法通过明确指导学生模型在推理过程中逐步聚焦关键信息,在数学和常识推理基准测试中实现了一致的性能提升。

通过混合策略蒸馏进行推理压缩

arXiv cs.AI

本文提出了混合策略蒸馏(MPD),这是一个将大教师模型的简洁推理行为转移到更小规模的学生模型的框架,在提升性能的同时,将令牌(token)使用量最多降低了27.1%。

增强多模态推理以对抗视觉退化

Hugging Face Daily Papers

本文介绍了 ROMA,这是一种强化学习微调框架,旨在提高多模态大语言模型(MLLMs)对模糊和压缩伪影等视觉退化的鲁棒性。该框架通过双重前向传播策略和专门的正则化技术实现这一目标,在保持干净输入准确性的同时,提升了推理基准测试的性能。

通过推理空间压缩的结构化理由蒸馏

arXiv cs.CL

本文提出了 D-RPC,一种通过将推理路径压缩为可复用库,从而将大型语言模型的推理能力蒸馏给较小模型的方法,该方法在数学和常识基准测试中实现了更好的性能和一致性。