从看到思考:解耦感知与推理改进视觉语言模型的后训练

Hugging Face Daily Papers 论文

摘要

本文提出一种分阶段训练方法,将视觉感知、视觉推理和文本推理分离为不同阶段。该方法提高了视觉推理准确性,同时缩短了推理链条长度,表明更强的感知能力可减少对过度推理的需求。

近期视觉语言模型(VLM)的进展强调长链式推理;然而我们发现,它们在视觉任务上的表现主要受限于视觉感知的不足,而非推理本身。本文通过将模型能力分解为三个独立训练阶段——视觉感知、视觉推理和文本推理,并引入专门训练数据,系统研究了VLM后训练中感知与推理的相互作用。我们表明:视觉感知(a)需要结合专门数据进行针对性优化;(b)是基础支撑,应通过分阶段训练加以巩固,再优化视觉推理;(c)通过强化学习(RL)比基于标注的监督微调(SFT)学习更有效。我们在多个VLM上的实验表明,分阶段训练在视觉感知和推理性能上始终优于合并训练。值得注意的是,采用我们的方法训练的模型在推理准确率提升1.5%的同时,推理链条长度缩短了20.8%,这表明更强的感知能力减少了对过度推理的需求。此外,我们证明这种基于能力的阶段划分代表了一种新的课程维度,它独立于传统的基于难度的课程,将两者结合可带来额外的叠加收益。我们的分阶段训练模型在开源权重VLM中取得了优越性能,在多个视觉数学和感知任务上相比基础版本取得了领先成果(例如在WeMath上提升5.2%,在RealWorldQA上提升3.7%)。
查看原文
查看缓存全文

缓存时间: 2026/05/25 10:37

论文页面 - 从看到思考:解耦感知与推理改善视觉语言模型的后训练

来源:https://huggingface.co/papers/2605.20177

摘要

分阶段训练方法将视觉感知、视觉推理和文本推理分开优化,优于统一训练方法,从而在视觉推理任务上取得更优性能。

近期视觉语言模型(VLMs)的进展强调长思维链推理;然而,我们发现它们在视觉任务上的表现主要受限于视觉感知能力的不足,而非推理本身。本研究通过将VLM后训练的能力分解为三个独立的训练阶段:视觉感知视觉推理文本推理,并引入专用训练数据,系统地研究了感知与推理在VLM后训练中的相互作用。我们证明:(a)视觉感知需要针对专用数据的目标优化;(b) 它作为基础支柱,应在完善视觉推理之前通过分阶段训练加以巩固;(c) 使用强化学习比基于字幕的SFT更能有效学习视觉感知。我们在多个VLM上的实验表明,分阶段训练视觉感知和推理性能上始终优于合并训练。值得注意的是,采用我们方法训练的模型在推理精度上提高了1.5%,同时推理痕迹缩短了20.8%,这表明更优的感知减少了对过度推理的需求。此外,我们还展示了这种基于能力的阶段划分代表了一种新的课程维度,与传统的基于难度的课程正交,两者结合可带来额外的累加增益。我们的分阶段训练模型在开源权重VLM中取得了领先性能,在多个视觉数学和感知任务(例如,相比基线,在WeMath上+5.2%,在RealWorldQA上+3.7%)上建立了先进结果。

查看arXiv页面 (https://arxiv.org/abs/2605.20177)查看PDF (https://arxiv.org/pdf/2605.20177)项目页面 (https://ucsc-vlaa.github.io/VLM-CapCurriculum/)GitHub4 (https://github.com/UCSC-VLAA/VLM-CapCurriculum)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.20177)

在您的Agent中获取这篇论文:

hf papers read 2605\.20177

没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型4

UCSC-VLAA/VLM-CapCurriculum-InternVL3-8B-Staged 图像-文本-文本• 8B• 5天前更新 • 49 (https://huggingface.co/UCSC-VLAA/VLM-CapCurriculum-InternVL3-8B-Staged)

UCSC-VLAA/VLM-CapCurriculum-InternVL3.5-8B-Staged 图像-文本-文本• 9B• 5天前更新 • 42 (https://huggingface.co/UCSC-VLAA/VLM-CapCurriculum-InternVL3.5-8B-Staged)

UCSC-VLAA/VLM-CapCurriculum-Qwen3-VL-8B-Staged 图像-文本-文本• 9B• 5天前更新 • 49 (https://huggingface.co/UCSC-VLAA/VLM-CapCurriculum-Qwen3-VL-8B-Staged)

UCSC-VLAA/VLM-CapCurriculum-Qwen2.5-VL-7B-Staged 图像-文本-文本• 8B• 5天前更新 • 48 (https://huggingface.co/UCSC-VLAA/VLM-CapCurriculum-Qwen2.5-VL-7B-Staged)

引用此论文的数据集3

UCSC-VLAA/VLM-CapCurriculum-Perception-Data 查看器• 5天前更新 • 3.36k • 88 (https://huggingface.co/datasets/UCSC-VLAA/VLM-CapCurriculum-Perception-Data)

UCSC-VLAA/VLM-CapCurriculum-TextReasoning-Data 查看器• 5天前更新 • 13.2k • 65 (https://huggingface.co/datasets/UCSC-VLAA/VLM-CapCurriculum-TextReasoning-Data)

UCSC-VLAA/VLM-CapCurriculum-VisualReasoning-Data (https://huggingface.co/datasets/UCSC-VLAA/VLM-CapCurriculum-VisualReasoning-Data)

引用此论文的Space0

没有Space链接此论文

在Space的README.md中引用arxiv.org/abs/2605.20177,即可在此页面显示链接。

包含此论文的收藏0

没有包含此论文的收藏

将这篇论文添加到一个收藏中,即可在此页面显示链接。

相似文章

更多推理,更低准确性?论视觉语言模型中推理的双重性

Papers with Code Trending

本文揭示,视觉语言模型中的长时间推理可能会损害感知基础,导致对基本视觉问题的识别失败。它提出视觉锚定策略优化(VAPO),将推理引导至视觉基础轨迹,并通过VAPO-Thinker-7B模型实现了最先进的性能。

视觉语言模型真的能进行视觉推理吗?模态差距的严格研究

arXiv cs.CL

本文介绍了CrossMath,一个受控多模态推理基准,揭示了当前视觉语言模型的一个关键局限:它们主要在文本空间进行推理,而非真正的视觉接地推理,视觉输入往往会降低性能相比仅文本基线。作者提出了微调方法来减轻这种模态差距并改进多模态推理能力。

视觉具象化推理

Hugging Face Daily Papers

本文介绍了视觉具象化推理,一种使视觉语言模型能够将自然语言推理与使用点或框的明确视觉证据基础相结合的方法。一个可扩展的合成流水线和基础感知的强化学习提高了推理准确性,使得一个4B模型在空间和计数基准上能够匹配甚至超越一个27B模型。