从看到思考:解耦感知与推理改进视觉语言模型的后训练
摘要
本文提出一种分阶段训练方法,将视觉感知、视觉推理和文本推理分离为不同阶段。该方法提高了视觉推理准确性,同时缩短了推理链条长度,表明更强的感知能力可减少对过度推理的需求。
查看缓存全文
缓存时间: 2026/05/25 10:37
论文页面 - 从看到思考:解耦感知与推理改善视觉语言模型的后训练
来源:https://huggingface.co/papers/2605.20177
摘要
分阶段训练方法将视觉感知、视觉推理和文本推理分开优化,优于统一训练方法,从而在视觉推理任务上取得更优性能。
近期视觉语言模型(VLMs)的进展强调长思维链推理;然而,我们发现它们在视觉任务上的表现主要受限于视觉感知能力的不足,而非推理本身。本研究通过将VLM后训练的能力分解为三个独立的训练阶段:视觉感知、视觉推理和文本推理,并引入专用训练数据,系统地研究了感知与推理在VLM后训练中的相互作用。我们证明:(a)视觉感知需要针对专用数据的目标优化;(b) 它作为基础支柱,应在完善视觉推理之前通过分阶段训练加以巩固;(c) 使用强化学习比基于字幕的SFT更能有效学习视觉感知。我们在多个VLM上的实验表明,分阶段训练在视觉感知和推理性能上始终优于合并训练。值得注意的是,采用我们方法训练的模型在推理精度上提高了1.5%,同时推理痕迹缩短了20.8%,这表明更优的感知减少了对过度推理的需求。此外,我们还展示了这种基于能力的阶段划分代表了一种新的课程维度,与传统的基于难度的课程正交,两者结合可带来额外的累加增益。我们的分阶段训练模型在开源权重VLM中取得了领先性能,在多个视觉数学和感知任务(例如,相比基线,在WeMath上+5.2%,在RealWorldQA上+3.7%)上建立了先进结果。
查看arXiv页面 (https://arxiv.org/abs/2605.20177)查看PDF (https://arxiv.org/pdf/2605.20177)项目页面 (https://ucsc-vlaa.github.io/VLM-CapCurriculum/)GitHub4 (https://github.com/UCSC-VLAA/VLM-CapCurriculum)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.20177)
在您的Agent中获取这篇论文:
hf papers read 2605\.20177
没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型4
UCSC-VLAA/VLM-CapCurriculum-InternVL3-8B-Staged 图像-文本-文本• 8B• 5天前更新 • 49 (https://huggingface.co/UCSC-VLAA/VLM-CapCurriculum-InternVL3-8B-Staged)
UCSC-VLAA/VLM-CapCurriculum-InternVL3.5-8B-Staged 图像-文本-文本• 9B• 5天前更新 • 42 (https://huggingface.co/UCSC-VLAA/VLM-CapCurriculum-InternVL3.5-8B-Staged)
UCSC-VLAA/VLM-CapCurriculum-Qwen3-VL-8B-Staged 图像-文本-文本• 9B• 5天前更新 • 49 (https://huggingface.co/UCSC-VLAA/VLM-CapCurriculum-Qwen3-VL-8B-Staged)
UCSC-VLAA/VLM-CapCurriculum-Qwen2.5-VL-7B-Staged 图像-文本-文本• 8B• 5天前更新 • 48 (https://huggingface.co/UCSC-VLAA/VLM-CapCurriculum-Qwen2.5-VL-7B-Staged)
引用此论文的数据集3
UCSC-VLAA/VLM-CapCurriculum-Perception-Data 查看器• 5天前更新 • 3.36k • 88 (https://huggingface.co/datasets/UCSC-VLAA/VLM-CapCurriculum-Perception-Data)
UCSC-VLAA/VLM-CapCurriculum-TextReasoning-Data 查看器• 5天前更新 • 13.2k • 65 (https://huggingface.co/datasets/UCSC-VLAA/VLM-CapCurriculum-TextReasoning-Data)
UCSC-VLAA/VLM-CapCurriculum-VisualReasoning-Data (https://huggingface.co/datasets/UCSC-VLAA/VLM-CapCurriculum-VisualReasoning-Data)
引用此论文的Space0
没有Space链接此论文
在Space的README.md中引用arxiv.org/abs/2605.20177,即可在此页面显示链接。
包含此论文的收藏0
没有包含此论文的收藏
将这篇论文添加到一个收藏中,即可在此页面显示链接。
相似文章
看不清还是想不对?面向视觉语言推理的感知奖励
本文提出一种强化学习框架,通过显式奖励感知保真度来改善视觉语言模型中的感知-推理协同,利用“蒙眼推理”代理和结构化言语验证来解决模态信用分配中的模糊性。
更多推理,更低准确性?论视觉语言模型中推理的双重性
本文揭示,视觉语言模型中的长时间推理可能会损害感知基础,导致对基本视觉问题的识别失败。它提出视觉锚定策略优化(VAPO),将推理引导至视觉基础轨迹,并通过VAPO-Thinker-7B模型实现了最先进的性能。
先见后思:解耦感知与推理实现抗捷径的多模态在策略自蒸馏
本文介绍了ViGOS,一种多模态在策略自蒸馏方法,通过让学生模型先产生视觉描述再进行推理来解耦感知与推理,减少对捷径的依赖并改善图像接地行为。
视觉语言模型真的能进行视觉推理吗?模态差距的严格研究
本文介绍了CrossMath,一个受控多模态推理基准,揭示了当前视觉语言模型的一个关键局限:它们主要在文本空间进行推理,而非真正的视觉接地推理,视觉输入往往会降低性能相比仅文本基线。作者提出了微调方法来减轻这种模态差距并改进多模态推理能力。
视觉具象化推理
本文介绍了视觉具象化推理,一种使视觉语言模型能够将自然语言推理与使用点或框的明确视觉证据基础相结合的方法。一个可扩展的合成流水线和基础感知的强化学习提高了推理准确性,使得一个4B模型在空间和计数基准上能够匹配甚至超越一个27B模型。