标签
本文研究了视觉-语言模型在非对称对话中能否区分潜在共同基础与已确立共同基础。在MapTask数据上的实验表明,提供任务相关的地图内容(视觉或文本)会使模型倾向于过度预测对齐,因为它们依赖于静态指示范例而非通过对话历史追踪共同基础的确立过程。
本文研究了视觉语言模型中的一种偏差,即模型在对话中高估了共同理解,将感知访问与沟通基础相混淆。研究结果对对话系统和VLM评估具有启示意义。