思维链削弱多模态大模型的视觉空间推理能力

Hugging Face Daily Papers 论文

摘要

研究表明,由于捷径学习和仅凭文本臆造视觉细节,思维链提示会损害多模态大模型在视觉空间推理方面的表现。

基于思维链(Chain-of-Thought, CoT)推理的多模态推理模型(MRMs)在数学与逻辑问题求解上带来革命性突破。然而,我们发现该范式在通用空间智能上表现乏力。我们在 13 个空间推理基准上对 17 个模型进行了全面评估,发现关键缺陷:CoT 提示持续降低视觉空间推理性能。进一步通过新型 No-Image++ 消融实验,我们证明 MRM 及经 CoT 提示的 MLM 存在严重捷径学习,即使图像缺失,也会仅凭文本先验臆造视觉细节。这些发现质疑了纯文本 CoT 在空间任务中的有效性,并凸显了以视觉为中心的推理范式的必要性。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/22 10:35

论文页面 - Chain-of-Thought 削弱多模态大模型的视觉空间推理能力

来源:https://huggingface.co/papers/2604.16060

摘要

在多模态推理模型中,Chain-of-Thought 提示会因“捷径学习”以及仅凭文本就臆想视觉细节,导致视觉空间推理性能下降。

借助 Chain-of-Thought 思维的多模态推理模型(Multimodal Reasoning Models, MRMs)已在数学与逻辑解题上取得突破。然而,我们发现该范式在通用空间智能任务上表现乏力。我们在 13 个空间推理基准上全面评估了 17 个模型,发现关键缺陷:CoT 提示持续削弱视觉空间推理性能。进一步通过新颖的 No-Image++ 消融实验,我们证实 MRMs 及被 CoT 提示的 MLMs 存在严重的“捷径学习”,即使图像缺失,也会仅凭文本先验臆想视觉细节。这些发现质疑了纯文本 CoT 在空间任务中的有效性,并凸显了以视觉为中心的推理范式的必要性。

查看 arXiv 页面 (https://arxiv.org/abs/2604.16060)
查看 PDF (https://arxiv.org/pdf/2604.16060)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.16060)

在智能体中获取该论文:

hf papers read 2604.16060

尚未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型链接该论文

在模型 README.md 中引用 arxiv.org/abs/2604.16060,即可在此页面显示链接。

引用该论文的数据集 0

暂无数据集链接该论文

在数据集 README.md 中引用 arxiv.org/abs/2604.16060,即可在此页面显示链接。

引用该论文的 Spaces 1

收录该论文的合辑 0

暂无合辑收录该论文

新建合辑 并将该论文加入,即可在此页面显示链接。

相似文章

PRISM:探究大语言模型幻觉中的推理、指令与源记忆

arXiv cs.CL

研究人员提出了 PRISM 诊断基准,该基准将大语言模型(LLM)的幻觉拆解为四个维度(知识缺失/错误、推理错误、指令遵循错误),涵盖三个生成阶段(记忆、指令、推理),并通过评估 24 款大语言模型,揭示了各类缓解策略之间存在的权衡关系。

理解LLM中新知识诱导的事实幻觉:分析与解释

arXiv cs.CL

本论文探究了在新知识上微调LLM如何诱导事实幻觉,研究表明特定知识类型内的陌生性通过削弱对关键实体的注意力来驱动幻觉。作者提议通过在后期训练阶段重新引入已知知识来缓解这一问题。

视觉语言模型真的能进行视觉推理吗?模态差距的严格研究

arXiv cs.CL

本文介绍了CrossMath,一个受控多模态推理基准,揭示了当前视觉语言模型的一个关键局限:它们主要在文本空间进行推理,而非真正的视觉接地推理,视觉输入往往会降低性能相比仅文本基线。作者提出了微调方法来减轻这种模态差距并改进多模态推理能力。

视觉-语言模型中提示诱导幻觉的机制研究

arXiv cs.CL

本文通过机制分析研究视觉-语言模型中的提示诱导幻觉,识别出导致模型偏向文本提示而忽视视觉证据的特定注意力头。作者证明了删除这些PIH头可以在无需额外训练的情况下减少至少40%的幻觉,揭示了该故障模式背后的模型特定机制。