思维链削弱多模态大模型的视觉空间推理能力

Hugging Face Daily Papers 2026/04/17 00:00 论文

摘要

研究表明，由于捷径学习和仅凭文本臆造视觉细节，思维链提示会损害多模态大模型在视觉空间推理方面的表现。

基于思维链（Chain-of-Thought, CoT）推理的多模态推理模型（MRMs）在数学与逻辑问题求解上带来革命性突破。然而，我们发现该范式在通用空间智能上表现乏力。我们在 13 个空间推理基准上对 17 个模型进行了全面评估，发现关键缺陷：CoT 提示持续降低视觉空间推理性能。进一步通过新型 No-Image++ 消融实验，我们证明 MRM 及经 CoT 提示的 MLM 存在严重捷径学习，即使图像缺失，也会仅凭文本先验臆造视觉细节。这些发现质疑了纯文本 CoT 在空间任务中的有效性，并凸显了以视觉为中心的推理范式的必要性。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/22 10:35

论文页面 - Chain-of-Thought 削弱多模态大模型的视觉空间推理能力

来源：https://huggingface.co/papers/2604.16060

摘要

在多模态推理模型中，Chain-of-Thought 提示会因“捷径学习”以及仅凭文本就臆想视觉细节，导致视觉空间推理性能下降。

借助 Chain-of-Thought 思维的多模态推理模型（Multimodal Reasoning Models, MRMs）已在数学与逻辑解题上取得突破。然而，我们发现该范式在通用空间智能任务上表现乏力。我们在 13 个空间推理基准上全面评估了 17 个模型，发现关键缺陷：CoT 提示持续削弱视觉空间推理性能。进一步通过新颖的 No-Image++ 消融实验，我们证实 MRMs 及被 CoT 提示的 MLMs 存在严重的“捷径学习”，即使图像缺失，也会仅凭文本先验臆想视觉细节。这些发现质疑了纯文本 CoT 在空间任务中的有效性，并凸显了以视觉为中心的推理范式的必要性。

查看 arXiv 页面 (https://arxiv.org/abs/2604.16060)
查看 PDF (https://arxiv.org/pdf/2604.16060)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.16060)

在智能体中获取该论文：

hf papers read 2604.16060

尚未安装最新 CLI？
curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型链接该论文

在模型 README.md 中引用 arxiv.org/abs/2604.16060，即可在此页面显示链接。

引用该论文的数据集 0

暂无数据集链接该论文

在数据集 README.md 中引用 arxiv.org/abs/2604.16060，即可在此页面显示链接。

引用该论文的 Spaces 1

收录该论文的合辑 0

暂无合辑收录该论文

新建合辑并将该论文加入，即可在此页面显示链接。

思维链削弱多模态大模型的视觉空间推理能力

论文页面 - Chain-of-Thought 削弱多模态大模型的视觉空间推理能力

摘要

引用该论文的模型 0

引用该论文的数据集 0

引用该论文的 Spaces 1

收录该论文的合辑 0

相似文章

Mind's Eye：面向多模态大模型的视觉抽象、变换与组合基准

PRISM：探究大语言模型幻觉中的推理、指令与源记忆

理解LLM中新知识诱导的事实幻觉：分析与解释

视觉语言模型真的能进行视觉推理吗？模态差距的严格研究

视觉-语言模型中提示诱导幻觉的机制研究

提交意见反馈