提升全模态语言模型:基于视觉去偏评估的分阶段后训练

Hugging Face Daily Papers 论文

摘要

本文提出了OmniClean,一个用于全模态语言模型的视觉去偏评估基准,并提出了OmniBoost,一种三阶段后训练方案,使得3B模型在清理后的基准上能够匹配30B模型的性能。

全模态语言模型旨在联合理解音频、视觉输入和语言,但当仅凭视觉证据就能回答查询时,基准测试的提升可能会被夸大。我们研究了当前全模态基准测试是否能将视觉捷径与真正的视听语言证据整合区分开来,以及在视觉去偏评估设置下后训练的表现如何。我们通过仅视觉探测对九个全模态基准进行了审计,移除了仅凭视觉可解答的查询,并在过滤未定义或会导致比较不稳定的情况下保留了完整子集。由此得到了OmniClean,一个清理后的评估视图,从16,968个被审计的查询中保留了8,551个查询。在OmniClean上,我们评估了基于Qwen2.5-Omni-3B的OmniBoost,一种三阶段后训练方案:混合双模态SFT、混合模态RLVR以及基于自蒸馏数据的SFT。平衡的双模态SFT带来的提升有限且不均衡,RLVR提供了首次广泛改进,而自蒸馏重新塑造了基准测试的轮廓。在自蒸馏数据上进行SFT后,该3B模型达到了与Qwen3-Omni-30B-A3B-Instruct相当且总体上略高的性能,且未使用更强的全模态教师模型。这些结果表明,当评估控制了视觉泄漏时,全模态的进展更易于解释,并且小型全模态模型可以从带有自蒸馏全模态查询监督的分阶段后训练中受益。项目页面:https://cheliu-computation.github.io/omni/
查看原文
查看缓存全文

缓存时间: 2026/05/15 12:25

论文页面 - 提升全模态语言模型:使用视觉去偏评估的分阶段后训练

来源:https://huggingface.co/papers/2605.12034 发布于5月13日

·

提交者https://huggingface.co/che111

liu (https://huggingface.co/che111)于5月15日

摘要

研究表明,当前的全模态基准可能通过视觉捷径放大性能,并显示后训练技术能在减少视觉信息泄露的清洁基准上提升模型表现。

全模态语言模型 (https://huggingface.co/papers?q=Omni-modal%20language%20models) 旨在联合理解音频、视觉输入和语言,但当仅凭视觉证据就能回答查询时,基准性能提升可能被夸大。我们研究了当前全模态基准是否能区分视觉捷径 (https://huggingface.co/papers?q=visual%20shortcuts) 与真正的音视频语言证据整合 (https://huggingface.co/papers?q=audio-visual-language%20evidence%20integration),以及后训练 (https://huggingface.co/papers?q=post-training) 在视觉去偏评估设置下的表现。我们通过纯视觉探测 (https://huggingface.co/papers?q=visual-only%20probing) 审查了九个全模态基准,移除仅凭视觉可解的查询,并在过滤未定义或可能导致比较不稳定的情况下保留完整子集。由此得到 OmniClean (https://huggingface.co/papers?q=OmniClean),一个清洁的评估视图,从16,968个被审查查询中保留了8,551个。在 OmniClean (https://huggingface.co/papers?q=OmniClean) 上,我们评估了 OmniBoost——一个基于 Qwen2.5-Omni-3B (https://huggingface.co/papers?q=Qwen2.5-Omni-3B) 的三阶段后训练 (https://huggingface.co/papers?q=post-training) 方案:混合双模态 SFT (https://huggingface.co/papers?q=mixed%20bi-modal%20SFT)、混合模态 RLVR (https://huggingface.co/papers?q=mixed-modality%20RLVR) 以及基于自蒸馏数据的 SFT。平衡的双模态 SFT 带来有限且不均衡的提升,RLVR 提供了首次广泛改善,而自蒸馏 (https://huggingface.co/papers?q=self-distillation) 重塑了基准分布。在自蒸馏数据的 SFT 之后,该 3B 模型达到了与 Qwen3-Omni-30B-A3B-Instruct 相当且总体上略高的性能,且未使用更强的全模态教师模型。这些结果表明,当评估控制了视觉泄露时,全模态进展更易于解读,并且小型全模态模型可以受益于带有自蒸馏全模态查询监督的分阶段后训练 (https://huggingface.co/papers?q=post-training)。项目页面:https://cheliu-computation.github.io/omni/

查看 arXiv 页面 (https://arxiv.org/abs/2605.12034)查看 PDF (https://arxiv.org/pdf/2605.12034)项目页面 (https://cheliu-computation.github.io/omni/)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.12034)

将这篇论文放入你的代理:

hf papers read 2605.12034

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.12034 即可从此页面链接。

引用该论文的数据集1

che111/OmniClean 查看器• 约3小时前更新 • 8.55k • 39 • 1 (https://huggingface.co/datasets/che111/OmniClean)

引用该论文的 Space0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.12034 即可从此页面链接。

包含该论文的收藏0

没有收藏包含此论文

添加此论文到一个收藏 (https://huggingface.co/new-collection) 即可从此页面链接。

相似文章

超越文本主导:理解全模态大语言模型的模态偏好

Hugging Face Daily Papers

# 论文页面 - 超越文本主导:理解全模态大语言模型的模态偏好 来源:[https://huggingface.co/papers/2604.16902](https://huggingface.co/papers/2604.16902) ## 摘要 研究发现,原生全模态大语言模型表现出相对于文本的视觉偏好,模态偏好在模型中后层逐步涌现,并可用于诊断跨模态幻觉。原生[全模态大语言模型](https://huggingfa

OmniThoughtVis:一种用于部署型多模态推理模型的可扩展蒸馏流水线

arXiv cs.CL

本文介绍了 OmniThoughtVis,这是一种可扩展的流水线,用于将多模态推理能力从大型教师模型蒸馏到更小、面向部署的多模态大语言模型(MLLMs)中。该方法利用精心策划的思维链(chain-of-thought)数据,显著提升了从2B到8B参数规模模型在 MathVerse 和 MMMU-Pro 等基准测试上的推理性能。

Omni-DuplexEval: 评估实时双工全模态交互

Hugging Face Daily Papers

本文介绍了Omni-DuplexEval,这是一个用于多模态大语言模型中实时双工交互的基准测试和自动评估框架,旨在评估流式场景下的连续响应生成和主动事件检测。