视觉的代价：在单一范式中实现可信的多模态推理

Hugging Face Daily Papers 2026/05/21 00:00 论文

摘要

本文挑战了当前视觉语言模型忠实地融合多模态数据的假设，提出了一种基于信息论的 Modality Translation Protocol，并引入了新指标（Toll、Curse、Fallacy of Seeing）来评估可信度，而非传统的多模态增益。

视觉语言模型（VLM）的快速普及常被视为能够实现统一的多模态知识发现，但这建立在一个未经充分检验的假设之上：当前VLM能够忠实地融合多模态数据。我们认为它们通常并非如此，这一差距反映了主流视觉编码器-投影器-LLM范式中的可信度问题。最先进的模型往往并非从视觉输入中提取基于事实的知识，而是表现出功能性盲点，即利用强大的语言先验来绕过严重的视觉表征瓶颈。在本工作中，我们挑战了传统的多模态评估方法，这些方法依赖于数据消融或创建新数据集，因此将数据集偏差与架构能力不足混为一谈。我们提出了一种信息论上的新方向：Modality Translation Protocol，旨在量化我们所谓的 Expense of Seeing。通过翻译语义载荷而非消融它们，我们提出了三个新指标——Toll (ToS)、Curse (CoS) 和 Fallacy (FoS) of Seeing——最终形成了语义充分性准则（Semantic Sufficiency Criterion, SSC）。此外，我们提出了多模态扩展的发散定律（Divergence Law of Multimodal Scaling）：随着底层语言引擎扩展到前所未有的推理能力，视觉知识瓶颈的惩罚可能会增加而非减少。我们认为社区应超越以“多模态增益”为主要评估目标的做法。通过将SSC从被动的诊断约束提升为主动的架构蓝图，我们为引导下一代AI系统走向真正的多模态推理提供了基础。

查看原文

查看缓存全文

缓存时间: 2026/05/25 06:36

论文页面 - 视觉的代价：在单块范式下实现可信的多模态推理

来源：https://huggingface.co/papers/2604.20665

摘要

视觉-语言模型常因依赖语言先验而非视觉表示，无法忠实融合多模态数据，这要求我们建立新的评估框架，将语义充分性置于传统多模态增益指标之上。

视觉-语言模型 (https://huggingface.co/papers?q=Vision-Language%20Models)（Vision-Language Models，VLMs）的快速普及常被描述为能够实现统一的多模态知识发现，但这建立在一个未经充分检验的假设之上：即当前 VLM 能忠实融合多模态数据。我们认为它们往往做不到，这一差距反映了主流视觉编码器-投影器-LLM 范式 (https://huggingface.co/papers?q=Vision%20Encoder-Projector-LLM%20paradigm) 中的可信性问题。最先进的模型并非从视觉输入中提取有根据的知识，而是经常表现出功能性盲视 (https://huggingface.co/papers?q=functional%20blindness)（functional blindness），即利用强大的语言先验来绕过严重的视觉表示瓶颈。在这项工作中，我们挑战了多模态评估 (https://huggingface.co/papers?q=multimodal%20evaluation) 的传统方法论，该方法论依赖于数据消融或创建新数据集，从而将数据集偏差与架构能力不足混为一谈。我们提出一个信息论层面的新方向：模态翻译协议 (https://huggingface.co/papers?q=Modality%20Translation%20Protocol)（Modality Translation Protocol），旨在量化我们所谓的视觉的代价 (https://huggingface.co/papers?q=Expense%20of%20Seeing)（Expense of Seeing）。通过翻译语义载荷而非消融它们，我们制定了三个新指标——视觉的通行费 (https://huggingface.co/papers?q=Toll%20(ToS))（Toll，ToS）、视觉的诅咒 (https://huggingface.co/papers?q=Curse%20(CoS))（Curse，CoS）和视觉的谬误 (https://huggingface.co/papers?q=Fallacy%20(FoS))（Fallacy，FoS）——最终形成语义充分性准则 (https://huggingface.co/papers?q=Semantic%20Sufficiency%20Criterion%20(SSC))（Semantic Sufficiency Criterion，SSC）。此外，我们假设了一条多模态扩展的发散定律 (https://huggingface.co/papers?q=Divergence%20Law%20of%20Multimodal%20Scaling)（Divergence Law of Multimodal Scaling）：当底层语言引擎扩展到前所未有的推理能力时，视觉知识瓶颈的惩罚可能不减反增。我们认为社区应超越将“多模态增益”作为主要评估目标。通过将 SSC 从被动的诊断约束提升为主动的架构蓝图，我们为引导下一代人工智能系统走向真正的多模态推理奠定了基础。

查看 arXiv 页面 (https://arxiv.org/abs/2604.20665)查看 PDF (https://arxiv.org/pdf/2604.20665)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.20665)

在你的智能体中获取这篇论文：

hf papers read 2604.20665

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2604.20665 以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2604.20665 以从此页面链接。

引用此论文的 Space0

没有 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2604.20665 以从此页面链接。

包含此论文的合集0

没有包含此论文的合集

请将此论文添加到合集 (https://huggingface.co/new-collection) 中以从此页面链接。

视觉的代价：在单一范式中实现可信的多模态推理

论文页面 - 视觉的代价：在单块范式下实现可信的多模态推理

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Space0

包含此论文的合集0

相似文章

视觉语言模型真的能进行视觉推理吗？模态差距的严格研究

看不清还是想不对？面向视觉语言推理的感知奖励

更多推理，更低准确性？论视觉语言模型中推理的双重性

当视觉为声音代言

通过最差维度优化改进多模态推理

提交意见反馈