思维链削弱多模态大模型的视觉空间推理能力

Hugging Face Daily Papers 论文

摘要

研究表明,由于捷径学习和仅凭文本臆造视觉细节,思维链提示会损害多模态大模型在视觉空间推理方面的表现。

基于思维链(Chain-of-Thought, CoT)推理的多模态推理模型(MRMs)在数学与逻辑问题求解上带来革命性突破。然而,我们发现该范式在通用空间智能上表现乏力。我们在 13 个空间推理基准上对 17 个模型进行了全面评估,发现关键缺陷:CoT 提示持续降低视觉空间推理性能。进一步通过新型 No-Image++ 消融实验,我们证明 MRM 及经 CoT 提示的 MLM 存在严重捷径学习,即使图像缺失,也会仅凭文本先验臆造视觉细节。这些发现质疑了纯文本 CoT 在空间任务中的有效性,并凸显了以视觉为中心的推理范式的必要性。
查看原文
查看缓存全文

缓存时间: 2026/04/22 10:35

论文页面 - Chain-of-Thought 削弱多模态大模型的视觉空间推理能力

来源:https://huggingface.co/papers/2604.16060

摘要

在多模态推理模型中,Chain-of-Thought 提示会因“捷径学习”以及仅凭文本就臆想视觉细节,导致视觉空间推理性能下降。

借助 Chain-of-Thought 思维的多模态推理模型(Multimodal Reasoning Models, MRMs)已在数学与逻辑解题上取得突破。然而,我们发现该范式在通用空间智能任务上表现乏力。我们在 13 个空间推理基准上全面评估了 17 个模型,发现关键缺陷:CoT 提示持续削弱视觉空间推理性能。进一步通过新颖的 No-Image++ 消融实验,我们证实 MRMs 及被 CoT 提示的 MLMs 存在严重的“捷径学习”,即使图像缺失,也会仅凭文本先验臆想视觉细节。这些发现质疑了纯文本 CoT 在空间任务中的有效性,并凸显了以视觉为中心的推理范式的必要性。

查看 arXiv 页面 (https://arxiv.org/abs/2604.16060)
查看 PDF (https://arxiv.org/pdf/2604.16060)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.16060)

在智能体中获取该论文:

hf papers read 2604.16060

尚未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型链接该论文

在模型 README.md 中引用 arxiv.org/abs/2604.16060,即可在此页面显示链接。

引用该论文的数据集 0

暂无数据集链接该论文

在数据集 README.md 中引用 arxiv.org/abs/2604.16060,即可在此页面显示链接。

引用该论文的 Spaces 1

收录该论文的合辑 0

暂无合辑收录该论文

新建合辑 并将该论文加入,即可在此页面显示链接。

相似文章

毒性幻觉:扰动提示并追踪LLM电路

arXiv cs.CL

本文研究了提示中的毒性词汇扰动如何降低LLM的事实准确性并增加不确定性,并使用归因图分析追踪内部变化。研究发现,增加毒性会放大对扰动敏感的变异节点,而核心推理节点保持不变。

PRISM:探究大语言模型幻觉中的推理、指令与源记忆

arXiv cs.CL

研究人员提出了 PRISM 诊断基准,该基准将大语言模型(LLM)的幻觉拆解为四个维度(知识缺失/错误、推理错误、指令遵循错误),涵盖三个生成阶段(记忆、指令、推理),并通过评估 24 款大语言模型,揭示了各类缓解策略之间存在的权衡关系。