提升全模态语言模型:基于视觉去偏评估的分阶段后训练
摘要
本文提出了OmniClean,一个用于全模态语言模型的视觉去偏评估基准,并提出了OmniBoost,一种三阶段后训练方案,使得3B模型在清理后的基准上能够匹配30B模型的性能。
查看缓存全文
缓存时间: 2026/05/15 12:25
论文页面 - 提升全模态语言模型:使用视觉去偏评估的分阶段后训练
来源:https://huggingface.co/papers/2605.12034 发布于5月13日
·
提交者https://huggingface.co/che111
liu (https://huggingface.co/che111)于5月15日
摘要
研究表明,当前的全模态基准可能通过视觉捷径放大性能,并显示后训练技术能在减少视觉信息泄露的清洁基准上提升模型表现。
全模态语言模型 (https://huggingface.co/papers?q=Omni-modal%20language%20models) 旨在联合理解音频、视觉输入和语言,但当仅凭视觉证据就能回答查询时,基准性能提升可能被夸大。我们研究了当前全模态基准是否能区分视觉捷径 (https://huggingface.co/papers?q=visual%20shortcuts) 与真正的音视频语言证据整合 (https://huggingface.co/papers?q=audio-visual-language%20evidence%20integration),以及后训练 (https://huggingface.co/papers?q=post-training) 在视觉去偏评估设置下的表现。我们通过纯视觉探测 (https://huggingface.co/papers?q=visual-only%20probing) 审查了九个全模态基准,移除仅凭视觉可解的查询,并在过滤未定义或可能导致比较不稳定的情况下保留完整子集。由此得到 OmniClean (https://huggingface.co/papers?q=OmniClean),一个清洁的评估视图,从16,968个被审查查询中保留了8,551个。在 OmniClean (https://huggingface.co/papers?q=OmniClean) 上,我们评估了 OmniBoost——一个基于 Qwen2.5-Omni-3B (https://huggingface.co/papers?q=Qwen2.5-Omni-3B) 的三阶段后训练 (https://huggingface.co/papers?q=post-training) 方案:混合双模态 SFT (https://huggingface.co/papers?q=mixed%20bi-modal%20SFT)、混合模态 RLVR (https://huggingface.co/papers?q=mixed-modality%20RLVR) 以及基于自蒸馏数据的 SFT。平衡的双模态 SFT 带来有限且不均衡的提升,RLVR 提供了首次广泛改善,而自蒸馏 (https://huggingface.co/papers?q=self-distillation) 重塑了基准分布。在自蒸馏数据的 SFT 之后,该 3B 模型达到了与 Qwen3-Omni-30B-A3B-Instruct 相当且总体上略高的性能,且未使用更强的全模态教师模型。这些结果表明,当评估控制了视觉泄露时,全模态进展更易于解读,并且小型全模态模型可以受益于带有自蒸馏全模态查询监督的分阶段后训练 (https://huggingface.co/papers?q=post-training)。项目页面:https://cheliu-computation.github.io/omni/
查看 arXiv 页面 (https://arxiv.org/abs/2605.12034)查看 PDF (https://arxiv.org/pdf/2605.12034)项目页面 (https://cheliu-computation.github.io/omni/)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.12034)
将这篇论文放入你的代理:
hf papers read 2605.12034
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2605.12034 即可从此页面链接。
引用该论文的数据集1
che111/OmniClean 查看器• 约3小时前更新 • 8.55k • 39 • 1 (https://huggingface.co/datasets/che111/OmniClean)
引用该论文的 Space0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2605.12034 即可从此页面链接。
包含该论文的收藏0
没有收藏包含此论文
添加此论文到一个收藏 (https://huggingface.co/new-collection) 即可从此页面链接。
相似文章
OmniPro:面向全主动流式视频理解的综合基准
OmniPro 是首个用于评估全模态大语言模型中主动流式视频理解的基准,包含 2,700 个样本,覆盖多种任务和双模式评估协议。
超越文本主导:理解全模态大语言模型的模态偏好
# 论文页面 - 超越文本主导:理解全模态大语言模型的模态偏好 来源:[https://huggingface.co/papers/2604.16902](https://huggingface.co/papers/2604.16902) ## 摘要 研究发现,原生全模态大语言模型表现出相对于文本的视觉偏好,模态偏好在模型中后层逐步涌现,并可用于诊断跨模态幻觉。原生[全模态大语言模型](https://huggingfa
MCBench: 面向全模态大语言模型的多语境安全评估基准
MCBench是一个新基准,用于评估全模态大语言模型在视觉、音频和文本模态下的安全性。它包含1196个场景,并发现当前模型难以进行跨模态安全推理。
OmniThoughtVis:一种用于部署型多模态推理模型的可扩展蒸馏流水线
本文介绍了 OmniThoughtVis,这是一种可扩展的流水线,用于将多模态推理能力从大型教师模型蒸馏到更小、面向部署的多模态大语言模型(MLLMs)中。该方法利用精心策划的思维链(chain-of-thought)数据,显著提升了从2B到8B参数规模模型在 MathVerse 和 MMMU-Pro 等基准测试上的推理性能。
Omni-DuplexEval: 评估实时双工全模态交互
本文介绍了Omni-DuplexEval,这是一个用于多模态大语言模型中实时双工交互的基准测试和自动评估框架,旨在评估流式场景下的连续响应生成和主动事件检测。