视觉具象化推理
摘要
本文介绍了视觉具象化推理,一种使视觉语言模型能够将自然语言推理与使用点或框的明确视觉证据基础相结合的方法。一个可扩展的合成流水线和基础感知的强化学习提高了推理准确性,使得一个4B模型在空间和计数基准上能够匹配甚至超越一个27B模型。
查看缓存全文
缓存时间: 2026/06/20 14:30
论文页面 - 结合视觉基础进行思考
来源:https://huggingface.co/papers/2606.16122
摘要
视觉基础推理将自然语言推理与视觉语言模型中的显式视觉证据定位相结合,通过可扩展的综合和强化学习技术提高了推理准确性。
视觉思考不仅听起来要合理,还应展示其证据。尽管当前的视觉语言模型(VLMs)可以生成自然语言推理轨迹,但这些轨迹往往隐去了支撑性的图像区域,使得验证困难且难以监督。我们引入了视觉基础思考这一推理过程:模型将自然语言思考与每步所用视觉证据的显式点定位或框定位交替呈现。这使得模型在用语言表达中间推理的同时,能将关键对象定位到其所指代的图像区域。为了训练这一行为,我们构建了一条可扩展的综合流水线:提取正确的视觉推理轨迹,提炼轨迹所需的视觉对象,通过基于SAM3的代理进行定位,并从生成的掩码中推导出对齐的点和框监督信号。我们进一步提出了定位感知强化学习,它将答案正确性奖励与密集的定位奖励相结合,后者用于评估生成的对象引用是否匹配正确的图像证据。在两个计数基准和四个空间推理基准上,将视觉基础思考加入Gemma3-4B-IT后,其性能持续优于原始模型和无定位思考的基线。在空间推理方面,视觉基础思考的4B模型达到甚至在某些情况下超越了同系列中Gemma3-27B-IT的性能。我们的分析表明,点定位特别适用于计数任务,而框定位在空间任务中受益于显式的定位奖励。总体而言,我们的结果显示,当VLM的中间思考与其所依据的图像区域紧密关联时,其思考效果更好。
查看arXiv页面 (https://arxiv.org/abs/2606.16122)
查看PDF (https://arxiv.org/pdf/2606.16122)
GitHub1 (https://github.com/Jun-Kai-Zhang/visually_grounded_thinking)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.16122)
在你的Agent中获取此论文:
hf papers read 2606.16122
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本论文的模型0
无模型链接本论文
在模型README.md中引用arxiv.org/abs/2606.16122即可从本页链接到该模型。
引用本论文的数据集1
JunkaiZ/TVG 查看器• 更新于1天前 • 19.7k • 31 (https://huggingface.co/datasets/JunkaiZ/TVG)
引用本论文的Space0
无Space链接本论文
在Space README.md中引用arxiv.org/abs/2606.16122即可从本页链接到该Space。
包含本论文的收藏2
相似文章
更多推理,更低准确性?论视觉语言模型中推理的双重性
本文揭示,视觉语言模型中的长时间推理可能会损害感知基础,导致对基本视觉问题的识别失败。它提出视觉锚定策略优化(VAPO),将推理引导至视觉基础轨迹,并通过VAPO-Thinker-7B模型实现了最先进的性能。
检索、整合与综合:空间-语义接地潜层视觉推理
本文介绍了 RIS,这是一个用于多模态大语言模型的空间-语义接地潜层视觉推理框架,旨在克服信息瓶颈。该框架提出将潜在令牌(tokens)锚定于空间和语义证据之上,在 V* 和 HRBench 等基准测试中展现出性能提升。
iVGR: 通过强化学习将视觉基础推理内化到多模态大语言模型
介绍 iVGR,一种强化学习框架,将视觉定位内化到多模态语言模型的文本推理中,在提升细粒度感知性能的同时,消除了推理过程中显式视觉基础的需求。
看不清还是想不对?面向视觉语言推理的感知奖励
本文提出一种强化学习框架,通过显式奖励感知保真度来改善视觉语言模型中的感知-推理协同,利用“蒙眼推理”代理和结构化言语验证来解决模态信用分配中的模糊性。
强化空间视觉语言模型中的双路径推理
本文介绍了SR-REAL,一个统一的空间视觉语言模型框架,通过强化学习结合了语言推理和三维几何推理,使得模型能够在多种任务中实现稳健的多步空间推理。