先见后思：解耦感知与推理实现抗捷径的多模态在策略自蒸馏

Hugging Face Daily Papers 2026/06/17 00:00 论文

multimodal self-distillation reasoning perception shortcuts mllm grounding

摘要

本文介绍了ViGOS，一种多模态在策略自蒸馏方法，通过让学生模型先产生视觉描述再进行推理来解耦感知与推理，减少对捷径的依赖并改善图像接地行为。

在策略自蒸馏（OPSD）通过在模型自身推出上训练，并使用冻结副本提供基于参考目标的密集令牌级目标。这对于LLM推理效果很好，但直接扩展到多模态大语言模型（MLLMs）可能产生捷径：特权目标可能主要基于文本参考目标而非图像来引导令牌。我们提出ViGOS，一种用于MLLM后训练的可视化接地OPSD框架。学生首先编写视觉描述，然后推理出最终答案。对于有效推出，仅图像感知教师监督描述，而特权推理教师在同一学生前缀上监督推理和最终答案。仅对无效推出使用参考教师以恢复输出格式。在通用视觉-语言、专家推理、视觉数学、空间接地和视觉-语言先验基准测试中，ViGOS保持了OPSD的主要优势，并在易受捷径影响的环境中改善了图像接地行为。

查看原文

查看缓存全文

缓存时间: 2026/06/18 15:57

Paper page - Seeing Before Reasoning: Decoupling Perception and Reasoning for Shortcut-Resilient Multimodal On-Policy Self-Distillation

Source: https://huggingface.co/papers/2606.19120 🚀ViGOS: 视觉前置推理用于抗捷径的多模态OPSD

MLLMs能够进行令人印象深刻的推理——但它们真的在推理前看了吗？👀 普通的多模态策略内自蒸馏可能会让特权参考答案泄露到密集的token监督中，在视觉证据被充分依据之前，就推动模型走向与答案兼容的推理过程。

ViGOS用一个简单而强大的想法解决了这个问题：先看，后推理。✨ 学生模型首先编写显式的视觉描述，由纯图像感知教师监督。然后，在这个视觉前缀就位后，一个特权推理教师指导推理和最终答案。参考教师仅用作格式错误的rollout的备用方案——所有教师在推理时都被移除。

📈结果：ViGOS在多模态推理基准上保持了OPSD的主要收益，同时在易于出现捷径的场景中改善了基于图像的行为。在Qwen2.5-VL骨干网络上，ViGOS在3B模型上达到71.97平均Pass@5，在7B模型上达到75.60，并在所有测试设置中取得了最佳的ViLP先验冲突分数——帮助模型在先验错误时相信图像。🔥

一句话总结： 🧠➡️👁️ViGOS教会MLLMs在推理前依据视觉证据——减少捷径而不牺牲强大的答案指导。

🔗链接

**Project Page:**https://oedosoldier.github.io/ViGOS/
**Paper:**https://arxiv.org/abs/2606.19120
**Code:**https://github.com/OedoSoldier/ViGOS
**ViGOS-3B:**https://huggingface.co/OedoSoldier/ViGOS-3B
**ViGOS-7B:**https://huggingface.co/OedoSoldier/ViGOS-7B

先见后思：解耦感知与推理实现抗捷径的多模态在策略自蒸馏

Paper page - Seeing Before Reasoning: Decoupling Perception and Reasoning for Shortcut-Resilient Multimodal On-Policy Self-Distillation

相似文章

从看到思考：解耦感知与推理改进视觉语言模型的后训练

更多推理，更低准确性？论视觉语言模型中推理的双重性

利用推理框架进行训练：面向复杂推理的在策略框架自蒸馏

看不清还是想不对？面向视觉语言推理的感知奖励

OmniThoughtVis：一种用于部署型多模态推理模型的可扩展蒸馏流水线

提交意见反馈