看见不等于共享:一些视觉语言模型在不对称对话中高估共同基础

Hugging Face Daily Papers 论文

摘要

本文研究了视觉语言模型中的一种偏差,即模型在对话中高估了共同理解,将感知访问与沟通基础相混淆。研究结果对对话系统和VLM评估具有启示意义。

在协作对话中,共享的感知并不能保证共享的理解。相互理解必须通过互动来建立。我们研究了视觉语言模型(VLM)是否能够区分对话参与者之间可能共享的内容与已经通过基础建立共享的内容。我们将此形式化为一个解释匹配任务,基于HCRC MapTask对话中的13,077个带注释的指代表达,并在系统控制对话上下文和地图信息访问的操作下评估VLM。我们的结果表明,提供真实地图图像提高了整体性能,但使模型倾向于过度预测对齐。相同地图内容的文本描述重现了这种偏差,而非信息性图像则完全抑制了对齐预测,表明该偏差是由任务相关的地图内容驱动的,而非视觉通道。这种改进是以降低非对齐案例的准确性为代价的。校准分析和指代链追踪进一步表明,模型依赖于地图上的静态指代线索,而非通过对话历史追踪基础如何展开。我们在Qwen3-VL-8B-Instruct中最为清晰地观察到这些模式,并且在来自两个架构家族的四个额外模型中也观察到不同程度的类似模式。在表现出该偏差的模型中,地图内容(无论是视觉呈现还是文本呈现)被视为相互理解的证据,将潜在共同基础与已建立的共同基础混为一谈。
查看原文
查看缓存全文

缓存时间: 2026/07/03 03:52

论文页面 - 看见不等于共享:某些视觉语言模型在不对称对话中高估共同基础

来源:https://huggingface.co/papers/2606.31719
本文探讨了协作对话中一个微妙但重要的区别:视觉语言模型能否区分“可能共享的内容”(源于共同感知)与“已经共享的内容”(通过互动中的意义确立)。我们利用HCRC MapTask对话中13,077条带标注的指代表达,在对话上下文和地图信息获取的可控操纵下评估了VLM的表现。

关键发现是:提供真实地图图像虽然全面提升了VLM的性能,却引入了一种系统性偏差——模型倾向于过度预测参与者之间的对齐性,即模型常常假设对话者只要看到相同的视觉输入,就会形成相同的理解。有趣的是,对相同地图内容的文本描述也会重现这一偏差,而非信息性的图像则完全抑制了对齐预测。这表明该偏差是由任务相关内容驱动的,而非视觉模态本身。

这对于从事对话系统、具身语言理解或VLM评估的研究者具有重要意义:当前模型混淆了感知可及性与交际共同基础,而这正是真实协作场景中至关重要的一类错误。我们很想知道各位如何看待缓解这一偏差的方法——无论是通过显式建模信息不对称状态的训练目标,还是通过分离感知层与话语层表征的架构改进。

相似文章

看见不等于共享:一些视觉-语言模型在非对称对话中高估共同基础

arXiv cs.CL

本文研究了视觉-语言模型在非对称对话中能否区分潜在共同基础与已确立共同基础。在MapTask数据上的实验表明,提供任务相关的地图内容(视觉或文本)会使模型倾向于过度预测对齐,因为它们依赖于静态指示范例而非通过对话历史追踪共同基础的确立过程。

视觉默认、先验覆盖:视觉-语言模型中感知-知识冲突的因果机制

arXiv cs.CL

本文研究视觉-语言模型如何解决视觉证据与世界知识之间的冲突,揭示了视觉基础是默认的,而先验知识依赖于一小部分位于后层的注意力头。作者在三个VLM系列上进行因果分析,展示了一种不对称结构:消融这些头部会使得预测从基于知识的答案转向基于视觉的答案。

视觉的代价:在单一范式中实现可信的多模态推理

Hugging Face Daily Papers

本文挑战了当前视觉语言模型忠实地融合多模态数据的假设,提出了一种基于信息论的 Modality Translation Protocol,并引入了新指标(Toll、Curse、Fallacy of Seeing)来评估可信度,而非传统的多模态增益。