先见后思:解耦感知与推理实现抗捷径的多模态在策略自蒸馏
摘要
本文介绍了ViGOS,一种多模态在策略自蒸馏方法,通过让学生模型先产生视觉描述再进行推理来解耦感知与推理,减少对捷径的依赖并改善图像接地行为。
查看缓存全文
缓存时间: 2026/06/18 15:57
Paper page - Seeing Before Reasoning: Decoupling Perception and Reasoning for Shortcut-Resilient Multimodal On-Policy Self-Distillation
Source: https://huggingface.co/papers/2606.19120 🚀ViGOS: 视觉前置推理用于抗捷径的多模态OPSD
MLLMs能够进行令人印象深刻的推理——但它们真的在推理前看了吗?👀 普通的多模态策略内自蒸馏可能会让特权参考答案泄露到密集的token监督中,在视觉证据被充分依据之前,就推动模型走向与答案兼容的推理过程。
ViGOS用一个简单而强大的想法解决了这个问题:先看,后推理。✨ 学生模型首先编写显式的视觉描述,由纯图像感知教师监督。然后,在这个视觉前缀就位后,一个特权推理教师指导推理和最终答案。参考教师仅用作格式错误的rollout的备用方案——所有教师在推理时都被移除。
📈结果:ViGOS在多模态推理基准上保持了OPSD的主要收益,同时在易于出现捷径的场景中改善了基于图像的行为。在Qwen2.5-VL骨干网络上,ViGOS在3B模型上达到71.97平均Pass@5,在7B模型上达到75.60,并在所有测试设置中取得了最佳的ViLP先验冲突分数——帮助模型在先验错误时相信图像。🔥
一句话总结: 🧠➡️👁️ViGOS教会MLLMs在推理前依据视觉证据——减少捷径而不牺牲强大的答案指导。
🔗链接
- **Project Page:**https://oedosoldier.github.io/ViGOS/
- **Paper:**https://arxiv.org/abs/2606.19120
- **Code:**https://github.com/OedoSoldier/ViGOS
- **ViGOS-3B:**https://huggingface.co/OedoSoldier/ViGOS-3B
- **ViGOS-7B:**https://huggingface.co/OedoSoldier/ViGOS-7B
相似文章
从看到思考:解耦感知与推理改进视觉语言模型的后训练
本文提出一种分阶段训练方法,将视觉感知、视觉推理和文本推理分离为不同阶段。该方法提高了视觉推理准确性,同时缩短了推理链条长度,表明更强的感知能力可减少对过度推理的需求。
更多推理,更低准确性?论视觉语言模型中推理的双重性
本文揭示,视觉语言模型中的长时间推理可能会损害感知基础,导致对基本视觉问题的识别失败。它提出视觉锚定策略优化(VAPO),将推理引导至视觉基础轨迹,并通过VAPO-Thinker-7B模型实现了最先进的性能。
利用推理框架进行训练:面向复杂推理的在策略框架自蒸馏
本文介绍了在策略框架自蒸馏(OPHSD),该方法通过自蒸馏将推理时框架的能力内化到基础模型中。该方法提高了模型在复杂推理任务上的独立性能,使模型能够在不依赖永久性外部工具的情况下保留推理辅助结构。
看不清还是想不对?面向视觉语言推理的感知奖励
本文提出一种强化学习框架,通过显式奖励感知保真度来改善视觉语言模型中的感知-推理协同,利用“蒙眼推理”代理和结构化言语验证来解决模态信用分配中的模糊性。
OmniThoughtVis:一种用于部署型多模态推理模型的可扩展蒸馏流水线
本文介绍了 OmniThoughtVis,这是一种可扩展的流水线,用于将多模态推理能力从大型教师模型蒸馏到更小、面向部署的多模态大语言模型(MLLMs)中。该方法利用精心策划的思维链(chain-of-thought)数据,显著提升了从2B到8B参数规模模型在 MathVerse 和 MMMU-Pro 等基准测试上的推理性能。