视觉具象化推理

Hugging Face Daily Papers 论文

摘要

本文介绍了视觉具象化推理,一种使视觉语言模型能够将自然语言推理与使用点或框的明确视觉证据基础相结合的方法。一个可扩展的合成流水线和基础感知的强化学习提高了推理准确性,使得一个4B模型在空间和计数基准上能够匹配甚至超越一个27B模型。

视觉推理不仅应该听起来正确,还应该展示其证据。虽然最近的视觉语言模型(VLM)能够生成自然语言推理轨迹,但这些轨迹通常使支持的图像区域变得隐式,从而难以验证和监督。我们引入了视觉具象化推理,这是一种推理过程,模型在其中将自然语言思考与每一步所用视觉证据的明确点或框基础化相结合。这使得模型能够在语言中表达中间推理,同时将关键对象基础化到它们所指的图像区域。为了训练这种行为,我们构建了一个可扩展的合成流水线,该流水线提炼正确的视觉推理轨迹,提取轨迹所需的视觉对象,使用基于SAM3的代理对它们进行基础化,并从生成的掩码中导出对齐的点与框监督。我们进一步提出了基础感知强化学习,它将答案正确性奖励与密集的基础奖励相结合,后者评分生成的物体引用是否与正确的图像证据匹配。在两个计数基准和四个空间推理基准上,将视觉具象化推理添加到Gemma3-4B-IT中,始终优于原始模型和非基础化思考基线。在空间推理上,采用视觉具象化推理的4B模型与同一模型家族的Gemma3-27B-IT相当,甚至在某些情况下超越。我们的分析表明,点基础化非常适合计数,而框基础化在空间任务上从明确的基础奖励中获益最多。总体而言,我们的结果表明,当VLM的中间思考与使其成立的图像区域紧密关联时,它们的思考效果更好。
查看原文
查看缓存全文

缓存时间: 2026/06/20 14:30

论文页面 - 结合视觉基础进行思考

来源:https://huggingface.co/papers/2606.16122

摘要

视觉基础推理将自然语言推理与视觉语言模型中的显式视觉证据定位相结合,通过可扩展的综合和强化学习技术提高了推理准确性。

视觉思考不仅听起来要合理,还应展示其证据。尽管当前的视觉语言模型(VLMs)可以生成自然语言推理轨迹,但这些轨迹往往隐去了支撑性的图像区域,使得验证困难且难以监督。我们引入了视觉基础思考这一推理过程:模型将自然语言思考与每步所用视觉证据的显式点定位框定位交替呈现。这使得模型在用语言表达中间推理的同时,能将关键对象定位到其所指代的图像区域。为了训练这一行为,我们构建了一条可扩展的综合流水线:提取正确的视觉推理轨迹,提炼轨迹所需的视觉对象,通过基于SAM3的代理进行定位,并从生成的掩码中推导出对齐的点和框监督信号。我们进一步提出了定位感知强化学习,它将答案正确性奖励与密集的定位奖励相结合,后者用于评估生成的对象引用是否匹配正确的图像证据。在两个计数基准和四个空间推理基准上,将视觉基础思考加入Gemma3-4B-IT后,其性能持续优于原始模型和无定位思考的基线。在空间推理方面,视觉基础思考的4B模型达到甚至在某些情况下超越了同系列中Gemma3-27B-IT的性能。我们的分析表明,点定位特别适用于计数任务,而框定位在空间任务中受益于显式的定位奖励。总体而言,我们的结果显示,当VLM的中间思考与其所依据的图像区域紧密关联时,其思考效果更好。

查看arXiv页面 (https://arxiv.org/abs/2606.16122)
查看PDF (https://arxiv.org/pdf/2606.16122)
GitHub1 (https://github.com/Jun-Kai-Zhang/visually_grounded_thinking)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.16122)

在你的Agent中获取此论文:

hf papers read 2606.16122

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用本论文的模型0

无模型链接本论文

在模型README.md中引用arxiv.org/abs/2606.16122即可从本页链接到该模型。

引用本论文的数据集1

JunkaiZ/TVG 查看器• 更新于1天前 • 19.7k • 31 (https://huggingface.co/datasets/JunkaiZ/TVG)

引用本论文的Space0

无Space链接本论文

在Space README.md中引用arxiv.org/abs/2606.16122即可从本页链接到该Space。

包含本论文的收藏2

相似文章

更多推理,更低准确性?论视觉语言模型中推理的双重性

Papers with Code Trending

本文揭示,视觉语言模型中的长时间推理可能会损害感知基础,导致对基本视觉问题的识别失败。它提出视觉锚定策略优化(VAPO),将推理引导至视觉基础轨迹,并通过VAPO-Thinker-7B模型实现了最先进的性能。

检索、整合与综合:空间-语义接地潜层视觉推理

arXiv cs.CL

本文介绍了 RIS,这是一个用于多模态大语言模型的空间-语义接地潜层视觉推理框架,旨在克服信息瓶颈。该框架提出将潜在令牌(tokens)锚定于空间和语义证据之上,在 V* 和 HRBench 等基准测试中展现出性能提升。

强化空间视觉语言模型中的双路径推理

Hugging Face Daily Papers

本文介绍了SR-REAL,一个统一的空间视觉语言模型框架,通过强化学习结合了语言推理和三维几何推理,使得模型能够在多种任务中实现稳健的多步空间推理。