先见后思:解耦感知与推理实现抗捷径的多模态在策略自蒸馏

Hugging Face Daily Papers 论文

摘要

本文介绍了ViGOS,一种多模态在策略自蒸馏方法,通过让学生模型先产生视觉描述再进行推理来解耦感知与推理,减少对捷径的依赖并改善图像接地行为。

在策略自蒸馏(OPSD)通过在模型自身推出上训练,并使用冻结副本提供基于参考目标的密集令牌级目标。这对于LLM推理效果很好,但直接扩展到多模态大语言模型(MLLMs)可能产生捷径:特权目标可能主要基于文本参考目标而非图像来引导令牌。我们提出ViGOS,一种用于MLLM后训练的可视化接地OPSD框架。学生首先编写视觉描述,然后推理出最终答案。对于有效推出,仅图像感知教师监督描述,而特权推理教师在同一学生前缀上监督推理和最终答案。仅对无效推出使用参考教师以恢复输出格式。在通用视觉-语言、专家推理、视觉数学、空间接地和视觉-语言先验基准测试中,ViGOS保持了OPSD的主要优势,并在易受捷径影响的环境中改善了图像接地行为。
查看原文
查看缓存全文

缓存时间: 2026/06/18 15:57

Paper page - Seeing Before Reasoning: Decoupling Perception and Reasoning for Shortcut-Resilient Multimodal On-Policy Self-Distillation

Source: https://huggingface.co/papers/2606.19120 🚀ViGOS: 视觉前置推理用于抗捷径的多模态OPSD

MLLMs能够进行令人印象深刻的推理——但它们真的在推理前了吗?👀 普通的多模态策略内自蒸馏可能会让特权参考答案泄露到密集的token监督中,在视觉证据被充分依据之前,就推动模型走向与答案兼容的推理过程。

ViGOS用一个简单而强大的想法解决了这个问题:先看,后推理。✨ 学生模型首先编写显式的视觉描述,由纯图像感知教师监督。然后,在这个视觉前缀就位后,一个特权推理教师指导推理和最终答案。参考教师仅用作格式错误的rollout的备用方案——所有教师在推理时都被移除。

📈结果:ViGOS在多模态推理基准上保持了OPSD的主要收益,同时在易于出现捷径的场景中改善了基于图像的行为。在Qwen2.5-VL骨干网络上,ViGOS在3B模型上达到71.97平均Pass@5,在7B模型上达到75.60,并在所有测试设置中取得了最佳的ViLP先验冲突分数——帮助模型在先验错误时相信图像。🔥

一句话总结: 🧠➡️👁️ViGOS教会MLLMs在推理前依据视觉证据——减少捷径而不牺牲强大的答案指导。

🔗链接

  • **Project Page:**https://oedosoldier.github.io/ViGOS/
  • **Paper:**https://arxiv.org/abs/2606.19120
  • **Code:**https://github.com/OedoSoldier/ViGOS
  • **ViGOS-3B:**https://huggingface.co/OedoSoldier/ViGOS-3B
  • **ViGOS-7B:**https://huggingface.co/OedoSoldier/ViGOS-7B

相似文章

更多推理,更低准确性?论视觉语言模型中推理的双重性

Papers with Code Trending

本文揭示,视觉语言模型中的长时间推理可能会损害感知基础,导致对基本视觉问题的识别失败。它提出视觉锚定策略优化(VAPO),将推理引导至视觉基础轨迹,并通过VAPO-Thinker-7B模型实现了最先进的性能。

OmniThoughtVis:一种用于部署型多模态推理模型的可扩展蒸馏流水线

arXiv cs.CL

本文介绍了 OmniThoughtVis,这是一种可扩展的流水线,用于将多模态推理能力从大型教师模型蒸馏到更小、面向部署的多模态大语言模型(MLLMs)中。该方法利用精心策划的思维链(chain-of-thought)数据,显著提升了从2B到8B参数规模模型在 MathVerse 和 MMMU-Pro 等基准测试上的推理性能。