从看到思考：解耦感知与推理改进视觉语言模型的后训练

Hugging Face Daily Papers 2026/05/19 00:00 论文

摘要

本文提出一种分阶段训练方法，将视觉感知、视觉推理和文本推理分离为不同阶段。该方法提高了视觉推理准确性，同时缩短了推理链条长度，表明更强的感知能力可减少对过度推理的需求。

近期视觉语言模型（VLM）的进展强调长链式推理；然而我们发现，它们在视觉任务上的表现主要受限于视觉感知的不足，而非推理本身。本文通过将模型能力分解为三个独立训练阶段——视觉感知、视觉推理和文本推理，并引入专门训练数据，系统研究了VLM后训练中感知与推理的相互作用。我们表明：视觉感知（a）需要结合专门数据进行针对性优化；（b）是基础支撑，应通过分阶段训练加以巩固，再优化视觉推理；（c）通过强化学习（RL）比基于标注的监督微调（SFT）学习更有效。我们在多个VLM上的实验表明，分阶段训练在视觉感知和推理性能上始终优于合并训练。值得注意的是，采用我们的方法训练的模型在推理准确率提升1.5%的同时，推理链条长度缩短了20.8%，这表明更强的感知能力减少了对过度推理的需求。此外，我们证明这种基于能力的阶段划分代表了一种新的课程维度，它独立于传统的基于难度的课程，将两者结合可带来额外的叠加收益。我们的分阶段训练模型在开源权重VLM中取得了优越性能，在多个视觉数学和感知任务上相比基础版本取得了领先成果（例如在WeMath上提升5.2%，在RealWorldQA上提升3.7%）。

查看原文

查看缓存全文

缓存时间: 2026/05/25 10:37

论文页面 - 从看到思考：解耦感知与推理改善视觉语言模型的后训练

来源：https://huggingface.co/papers/2605.20177

摘要

分阶段训练方法将视觉感知、视觉推理和文本推理分开优化，优于统一训练方法，从而在视觉推理任务上取得更优性能。

近期视觉语言模型（VLMs）的进展强调长思维链推理；然而，我们发现它们在视觉任务上的表现主要受限于视觉感知能力的不足，而非推理本身。本研究通过将VLM后训练的能力分解为三个独立的训练阶段：视觉感知、视觉推理和文本推理，并引入专用训练数据，系统地研究了感知与推理在VLM后训练中的相互作用。我们证明：(a)视觉感知需要针对专用数据的目标优化；(b) 它作为基础支柱，应在完善视觉推理之前通过分阶段训练加以巩固；(c) 使用强化学习比基于字幕的SFT更能有效学习视觉感知。我们在多个VLM上的实验表明，分阶段训练在视觉感知和推理性能上始终优于合并训练。值得注意的是，采用我们方法训练的模型在推理精度上提高了1.5%，同时推理痕迹缩短了20.8%，这表明更优的感知减少了对过度推理的需求。此外，我们还展示了这种基于能力的阶段划分代表了一种新的课程维度，与传统的基于难度的课程正交，两者结合可带来额外的累加增益。我们的分阶段训练模型在开源权重VLM中取得了领先性能，在多个视觉数学和感知任务（例如，相比基线，在WeMath上+5.2%，在RealWorldQA上+3.7%）上建立了先进结果。

查看arXiv页面 (https://arxiv.org/abs/2605.20177)查看PDF (https://arxiv.org/pdf/2605.20177)项目页面 (https://ucsc-vlaa.github.io/VLM-CapCurriculum/)GitHub4 (https://github.com/UCSC-VLAA/VLM-CapCurriculum)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.20177)

在您的Agent中获取这篇论文：

hf papers read 2605\.20177

没有最新的CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型4

UCSC-VLAA/VLM-CapCurriculum-InternVL3-8B-Staged 图像-文本-文本• 8B• 5天前更新 • 49 (https://huggingface.co/UCSC-VLAA/VLM-CapCurriculum-InternVL3-8B-Staged)

UCSC-VLAA/VLM-CapCurriculum-InternVL3.5-8B-Staged 图像-文本-文本• 9B• 5天前更新 • 42 (https://huggingface.co/UCSC-VLAA/VLM-CapCurriculum-InternVL3.5-8B-Staged)

UCSC-VLAA/VLM-CapCurriculum-Qwen3-VL-8B-Staged 图像-文本-文本• 9B• 5天前更新 • 49 (https://huggingface.co/UCSC-VLAA/VLM-CapCurriculum-Qwen3-VL-8B-Staged)

UCSC-VLAA/VLM-CapCurriculum-Qwen2.5-VL-7B-Staged 图像-文本-文本• 8B• 5天前更新 • 48 (https://huggingface.co/UCSC-VLAA/VLM-CapCurriculum-Qwen2.5-VL-7B-Staged)

引用此论文的数据集3

UCSC-VLAA/VLM-CapCurriculum-Perception-Data 查看器• 5天前更新 • 3.36k • 88 (https://huggingface.co/datasets/UCSC-VLAA/VLM-CapCurriculum-Perception-Data)

UCSC-VLAA/VLM-CapCurriculum-TextReasoning-Data 查看器• 5天前更新 • 13.2k • 65 (https://huggingface.co/datasets/UCSC-VLAA/VLM-CapCurriculum-TextReasoning-Data)

UCSC-VLAA/VLM-CapCurriculum-VisualReasoning-Data (https://huggingface.co/datasets/UCSC-VLAA/VLM-CapCurriculum-VisualReasoning-Data)

引用此论文的Space0

没有Space链接此论文

在Space的README.md中引用arxiv.org/abs/2605.20177，即可在此页面显示链接。

包含此论文的收藏0

没有包含此论文的收藏

将这篇论文添加到一个收藏中，即可在此页面显示链接。

从看到思考：解耦感知与推理改进视觉语言模型的后训练

论文页面 - 从看到思考：解耦感知与推理改善视觉语言模型的后训练

摘要

引用此论文的模型4

UCSC-VLAA/VLM-CapCurriculum-InternVL3-8B-Staged 图像-文本-文本• 8B• 5天前更新 • 49 (https://huggingface.co/UCSC-VLAA/VLM-CapCurriculum-InternVL3-8B-Staged)

UCSC-VLAA/VLM-CapCurriculum-InternVL3.5-8B-Staged 图像-文本-文本• 9B• 5天前更新 • 42 (https://huggingface.co/UCSC-VLAA/VLM-CapCurriculum-InternVL3.5-8B-Staged)

UCSC-VLAA/VLM-CapCurriculum-Qwen3-VL-8B-Staged 图像-文本-文本• 9B• 5天前更新 • 49 (https://huggingface.co/UCSC-VLAA/VLM-CapCurriculum-Qwen3-VL-8B-Staged)

UCSC-VLAA/VLM-CapCurriculum-Qwen2.5-VL-7B-Staged 图像-文本-文本• 8B• 5天前更新 • 48 (https://huggingface.co/UCSC-VLAA/VLM-CapCurriculum-Qwen2.5-VL-7B-Staged)

引用此论文的数据集3

UCSC-VLAA/VLM-CapCurriculum-Perception-Data 查看器• 5天前更新 • 3.36k • 88 (https://huggingface.co/datasets/UCSC-VLAA/VLM-CapCurriculum-Perception-Data)

UCSC-VLAA/VLM-CapCurriculum-TextReasoning-Data 查看器• 5天前更新 • 13.2k • 65 (https://huggingface.co/datasets/UCSC-VLAA/VLM-CapCurriculum-TextReasoning-Data)

UCSC-VLAA/VLM-CapCurriculum-VisualReasoning-Data (https://huggingface.co/datasets/UCSC-VLAA/VLM-CapCurriculum-VisualReasoning-Data)

引用此论文的Space0

包含此论文的收藏0

相似文章

看不清还是想不对？面向视觉语言推理的感知奖励

更多推理，更低准确性？论视觉语言模型中推理的双重性

先见后思：解耦感知与推理实现抗捷径的多模态在策略自蒸馏

视觉语言模型真的能进行视觉推理吗？模态差距的严格研究

视觉具象化推理

提交意见反馈