视觉的代价:在单一范式中实现可信的多模态推理
摘要
本文挑战了当前视觉语言模型忠实地融合多模态数据的假设,提出了一种基于信息论的 Modality Translation Protocol,并引入了新指标(Toll、Curse、Fallacy of Seeing)来评估可信度,而非传统的多模态增益。
查看缓存全文
缓存时间: 2026/05/25 06:36
论文页面 - 视觉的代价:在单块范式下实现可信的多模态推理
来源:https://huggingface.co/papers/2604.20665
摘要
视觉-语言模型常因依赖语言先验而非视觉表示,无法忠实融合多模态数据,这要求我们建立新的评估框架,将语义充分性置于传统多模态增益指标之上。
视觉-语言模型 (https://huggingface.co/papers?q=Vision-Language%20Models)(Vision-Language Models,VLMs)的快速普及常被描述为能够实现统一的多模态知识发现,但这建立在一个未经充分检验的假设之上:即当前 VLM 能忠实融合多模态数据。我们认为它们往往做不到,这一差距反映了主流视觉编码器-投影器-LLM 范式 (https://huggingface.co/papers?q=Vision%20Encoder-Projector-LLM%20paradigm) 中的可信性问题。最先进的模型并非从视觉输入中提取有根据的知识,而是经常表现出功能性盲视 (https://huggingface.co/papers?q=functional%20blindness)(functional blindness),即利用强大的语言先验来绕过严重的视觉表示瓶颈。在这项工作中,我们挑战了多模态评估 (https://huggingface.co/papers?q=multimodal%20evaluation) 的传统方法论,该方法论依赖于数据消融或创建新数据集,从而将数据集偏差与架构能力不足混为一谈。我们提出一个信息论层面的新方向:模态翻译协议 (https://huggingface.co/papers?q=Modality%20Translation%20Protocol)(Modality Translation Protocol),旨在量化我们所谓的视觉的代价 (https://huggingface.co/papers?q=Expense%20of%20Seeing)(Expense of Seeing)。通过翻译语义载荷而非消融它们,我们制定了三个新指标——视觉的通行费 (https://huggingface.co/papers?q=Toll%20(ToS))(Toll,ToS)、视觉的诅咒 (https://huggingface.co/papers?q=Curse%20(CoS))(Curse,CoS)和视觉的谬误 (https://huggingface.co/papers?q=Fallacy%20(FoS))(Fallacy,FoS)——最终形成语义充分性准则 (https://huggingface.co/papers?q=Semantic%20Sufficiency%20Criterion%20(SSC))(Semantic Sufficiency Criterion,SSC)。此外,我们假设了一条多模态扩展的发散定律 (https://huggingface.co/papers?q=Divergence%20Law%20of%20Multimodal%20Scaling)(Divergence Law of Multimodal Scaling):当底层语言引擎扩展到前所未有的推理能力时,视觉知识瓶颈的惩罚可能不减反增。我们认为社区应超越将“多模态增益”作为主要评估目标。通过将 SSC 从被动的诊断约束提升为主动的架构蓝图,我们为引导下一代人工智能系统走向真正的多模态推理奠定了基础。
查看 arXiv 页面 (https://arxiv.org/abs/2604.20665)查看 PDF (https://arxiv.org/pdf/2604.20665)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.20665)
在你的智能体中获取这篇论文:
hf papers read 2604.20665
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2604.20665 以从此页面链接。
引用此论文的数据集0
没有数据集链接此论文
请在数据集 README.md 中引用 arxiv.org/abs/2604.20665 以从此页面链接。
引用此论文的 Space0
没有 Space 链接此论文
请在 Space README.md 中引用 arxiv.org/abs/2604.20665 以从此页面链接。
包含此论文的合集0
没有包含此论文的合集
请将此论文添加到合集 (https://huggingface.co/new-collection) 中以从此页面链接。
相似文章
视觉语言模型真的能进行视觉推理吗?模态差距的严格研究
本文介绍了CrossMath,一个受控多模态推理基准,揭示了当前视觉语言模型的一个关键局限:它们主要在文本空间进行推理,而非真正的视觉接地推理,视觉输入往往会降低性能相比仅文本基线。作者提出了微调方法来减轻这种模态差距并改进多模态推理能力。
看不清还是想不对?面向视觉语言推理的感知奖励
本文提出一种强化学习框架,通过显式奖励感知保真度来改善视觉语言模型中的感知-推理协同,利用“蒙眼推理”代理和结构化言语验证来解决模态信用分配中的模糊性。
更多推理,更低准确性?论视觉语言模型中推理的双重性
本文揭示,视觉语言模型中的长时间推理可能会损害感知基础,导致对基本视觉问题的识别失败。它提出视觉锚定策略优化(VAPO),将推理引导至视觉基础轨迹,并通过VAPO-Thinker-7B模型实现了最先进的性能。
当视觉为声音代言
本文发现,具备视频处理能力的多模态大语言模型(MLLMs)表面上似乎能够理解音频,但实际上依赖视觉线索,这一失败模式被称为视听Clever Hans效应。我们提出了Thud,一个基于干预的探查框架来诊断该问题,并提出了一种对齐方案,将视听一致性提升了28个百分点。
通过最差维度优化改进多模态推理
本文提出了多模态多维度标量化过程奖励建模(MMS-PRM),该方法在多模态推理中强制最差维度的鲁棒性,以防止视觉幻觉等失败被强大的文本逻辑掩盖。