思维链削弱多模态大模型的视觉空间推理能力
摘要
研究表明,由于捷径学习和仅凭文本臆造视觉细节,思维链提示会损害多模态大模型在视觉空间推理方面的表现。
查看缓存全文
缓存时间: 2026/04/22 10:35
论文页面 - Chain-of-Thought 削弱多模态大模型的视觉空间推理能力
来源:https://huggingface.co/papers/2604.16060
摘要
在多模态推理模型中,Chain-of-Thought 提示会因“捷径学习”以及仅凭文本就臆想视觉细节,导致视觉空间推理性能下降。
借助 Chain-of-Thought 思维的多模态推理模型(Multimodal Reasoning Models, MRMs)已在数学与逻辑解题上取得突破。然而,我们发现该范式在通用空间智能任务上表现乏力。我们在 13 个空间推理基准上全面评估了 17 个模型,发现关键缺陷:CoT 提示持续削弱视觉空间推理性能。进一步通过新颖的 No-Image++ 消融实验,我们证实 MRMs 及被 CoT 提示的 MLMs 存在严重的“捷径学习”,即使图像缺失,也会仅凭文本先验臆想视觉细节。这些发现质疑了纯文本 CoT 在空间任务中的有效性,并凸显了以视觉为中心的推理范式的必要性。
查看 arXiv 页面 (https://arxiv.org/abs/2604.16060)
查看 PDF (https://arxiv.org/pdf/2604.16060)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.16060)
在智能体中获取该论文:
hf papers read 2604.16060
尚未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型 0
暂无模型链接该论文
在模型 README.md 中引用 arxiv.org/abs/2604.16060,即可在此页面显示链接。
引用该论文的数据集 0
暂无数据集链接该论文
在数据集 README.md 中引用 arxiv.org/abs/2604.16060,即可在此页面显示链接。
引用该论文的 Spaces 1
收录该论文的合辑 0
暂无合辑收录该论文
新建合辑 并将该论文加入,即可在此页面显示链接。
相似文章
LLMs为何在结构化知识上产生幻觉:对线性化表示推理的机制分析
本文对LLMs在推理线性化结构化知识时产生幻觉的原因进行了机制分析,发现幻觉源于系统的内部动态,例如对捷径线索的关注以及前馈层中语义基础的失败,而非随机噪声。
Mind's Eye:面向多模态大模型的视觉抽象、变换与组合基准
研究者推出 Mind’s Eye,一项包含八道视觉认知任务的基准测试,显示顶级多模态大模型得分不足 50%,而人类可达 80%,暴露出视觉抽象、关系映射与心理变换方面的巨大差距。
毒性幻觉:扰动提示并追踪LLM电路
本文研究了提示中的毒性词汇扰动如何降低LLM的事实准确性并增加不确定性,并使用归因图分析追踪内部变化。研究发现,增加毒性会放大对扰动敏感的变异节点,而核心推理节点保持不变。
LLM推理研究中的奇怪现象:我们正在尝试去除思维链痕迹
本文讨论了LLM推理研究的一个转变:从通过思维链使推理显式化,转向探索无需语言痕迹的潜在推理,质疑可见性对于有效推理是否必要。
PRISM:探究大语言模型幻觉中的推理、指令与源记忆
研究人员提出了 PRISM 诊断基准,该基准将大语言模型(LLM)的幻觉拆解为四个维度(知识缺失/错误、推理错误、指令遵循错误),涵盖三个生成阶段(记忆、指令、推理),并通过评估 24 款大语言模型,揭示了各类缓解策略之间存在的权衡关系。