视觉语言模型在多语言否定理解上的差异

arXiv cs.CL 2026/04/22 04:00 论文

摘要

MIT 研究人员发布首个涵盖七种语言的多语言否定基准，发现 CLIP 等模型在非拉丁文字上表现不佳，而 MultiCLIP 与 SpaceVLM 在各语言间的提升并不均衡。

arXiv:2604.18942v1 公告类型：新增摘要：视觉语言模型（VLM）存在“肯定偏差”：系统性地倾向选择肯定描述（“X 存在”），即使正确描述含否定（“无 X”）。此前研究已在英语中记录该缺陷并提出解决方案，但否定在不同语言中通过形态、词序、附着形式等差异呈现，这些方案能否公平服务所有语言社区仍存疑。我们推出首个经人工校验的多语言否定基准，覆盖七种类型迥异的语言：英语、汉语普通话、阿拉伯语、希腊语、俄语、他加禄语、西班牙语。评估 CLIP、SigLIP、MultiCLIP 三种 VLM 后发现，标准 CLIP 在非拉丁文字语言上的准确率等于或低于随机水平，而 MultiCLIP 获得最高且最均衡的准确率。我们还测试了针对否定的修正方法 SpaceVLM，发现其在英语、希腊语、西班牙语、他加禄语上显著提升，而在类型差异大的语言上效果不一。这种差异表明，形态、文字、否定结构等语言属性与模型改进以公平相关的方式交互。随着 VLM 全球部署，多语言基准不仅关乎“方案是否有效”，更关乎“对谁有效”。

查看原文

查看缓存全文

缓存时间: 2026/04/22 08:29

# 视觉-语言模型在否定理解上的跨语言差异
来源：https://arxiv.org/html/2604.18942  
Charikleia Moraitaki∗Sarah Pan∗Skyler Pulling∗ Gwendolyn Flusche∗Kumail Alhamoud Marzyeh Ghassemi 麻省理工学院

∗同等贡献

###### 摘要

视觉-语言模型（VLMs）表现出*肯定偏差*：即使正确描述包含否定（“没有X”），系统仍倾向于选择肯定字幕（“X存在”）。先前研究仅在英语中记录了这一失效模式并提出解决方案，但否定在不同语言中通过形态、语序、附着化等差异呈现，引发这些解决方案是否公平服务所有语言社区的疑问。我们推出首个经人工校验的多语言否定基准，覆盖七种类型多样的语言：英语、汉语、阿拉伯语、希腊语、俄语、他加禄语和西班牙语。评估CLIP、SigLIP、MultiCLIP三款VLMs后发现，标准CLIP在非拉丁文字语言上表现不高于随机，而MultiCLIP获得最高且最均衡的准确率。我们进一步测试最新提出的否定修正方法SpaceVLM，发现其在若干语言——特别是英语、希腊语、西班牙语和他加禄语——带来显著提升，而在类型迥异的语言上效果不一。这种差异揭示形态、文字、否定结构等语言属性与模型改进以公平相关的方式交互。随着VLMs全球部署，多语言基准对于理解解决方案不仅“是否有效”，而且“对谁有效”至关重要。

## 1 引言

给语言模型的提示绝大多数是肯定式：“生成一张有狗的图像”“给我一个包含食谱的列表”。当我们使用否定呢？Alhamoud等人（2025）的最新研究表明，最先进的视觉-语言模型（VLMs）经常在否定查询上失败，表现出*肯定偏差*：只因出现“船”一词，就将字幕“没有船”与含船的图像匹配。这一失效在下游场景后果严重——放射学中，“无胸腔积液”与“胸腔积液存在”决定病灶是否被标记或忽略。

然而，现有否定理解评估仅聚焦英语。这是一大缺口，因为否定并非千篇一律。例如，英语用简单副词粒子（“no”“not”），希腊语则用动词否定加存在结构（“δεν υπάρχει”=“不存在”），阿拉伯语在从右至左的文字中使用附着化标记，汉语依赖孤立粒子并承担不同语义功能。这些结构差异可能影响VLM行为，而英语单语基准无法反映。这对公平至关重要，因大语言模型 disproportionately 围绕英语及少数高资源语言构建，形成“数字语言鸿沟”，系统性地让全球大多数语言处于劣势（Bella 等，2023）。先前研究已广泛记录NLP中跨语言的系统性性能不平等（Blasi 等，2022），若VLMs同样对某些语言社区的否定处理更好，则构成值得关注的公平问题——尤其当这些系统进入安全关键领域。

我们的主要贡献是首个VLM多语言否定基准，覆盖七种类型多样的语言。利用该基准，我们发现即便明确多语言的VLMs也存在显著跨语言否定差距，语言间性能差异高达27.5个百分点。我们进一步将最近提出的否定修正方法SpaceVLM（Ranjan 等，2025）应用于所有语言，发现其有效性与语言形态表达否定的方式相关。这种差异本身具有启示：它显示语言结构以影响公平部署的方式塑造模型行为。

## 2 方法

### 基准构建

我们扩展英语NegBench数据集（Alhamoud 等，2025），该数据集含5,914组来自COCO（Lin 等，2014）的图像-字幕四选一，翻译至七种类型多样的语言：英语、西班牙语、希腊语、他加禄语（用独立粒子否定），俄语和阿拉伯语（形态复杂否定），汉语（孤立语，不同语义功能用不同否定粒子）。这些语言覆盖拉丁与非拉丁文字、左向与右向书写、多个语系。翻译先用Google Translate，再由母语者人工校验（每语言30条），确保否定标记正确、否定句语义与英语原文一致、目标语言自然。

### 模型与评估

我们评估三种对比式VLM，代表不同训练范式：CLIP（Radford 等，2021）（主要英语训练）、SigLIP（Zhai 等，2023）（多语言）、MultiCLIP（Carlsson 等，2022）（多语言）。我们还测试应用SpaceVLM（Ranjan 等，2025）后的效果，该方法用阈值τ=0.92（源自英语数据）将字幕拆分为肯定与否定分量并计算混合嵌入。指标为四选一字幕排序的Top-1准确率（随机=25%）。

## 3 结果

### 即便多语言VLM也存在显著否定差距

表1总结基线性能。CLIP差异最极端：英语39.3%，而阿拉伯语（15.7%）、他加禄语（11.8%）、希腊语（18.0%）均*低于*随机，表明系统性失效。SigLIP经多语言训练，将差距收窄至7.4个百分点。MultiCLIP表现最均衡（标准差1.3%），但平均41.2%的准确率显示最佳多语言模型整体仍对否定理解吃力。

表1：基线跨语言否定性能。即便最公平的MultiCLIP平均准确率仅41%，显示多语言训练本身无法解决否定理解。

### SpaceVLM作为诊断透镜

SpaceVLM在若干语言带来显著提升，但增益不均且呈类型模式（表2）。采用独立粒子否定（Miestamo，2005）的语言，如英语、西班牙语、希腊语、他加禄语，在三模型上均获得一致大幅提升（+9.0至+27.5pp）。而形态复杂否定（俄语、阿拉伯语）或语义功能不同的孤立粒子（汉语）的语言，提升较小或不稳定。

表2：SpaceVLM揭示类型模式（Δ=SpaceVLM−基线）。绿色：增益>5pp；红色：下降>5pp。副词否定语言持续受益；形态复杂否定语言效果不一，显示否定结构影响行为。

### 模式稳健

我们将SpaceVLM应用于NegCLIP和ConCLIP——针对英语否定微调的模型（Yuksekgonul 等，2023）——同样出现该类型模式：英语大幅提升（57–69%），阿拉伯语（18–20%）、俄语（27–29%）、汉语（35–39%）差距依旧。该模式在五种模型-方案组合中持续存在，表明其反映这些语言编码否定的真实属性。

## 4 讨论：公平部署的启示

VLMs在英语否定处理上优于其他语言，构成模型可靠性在语言社区间的明显差距。这在安全关键应用中尤为令人担忧，不同结果沿语言线提供不等服务质量。我们的基准使这些差距可量化。我们观察到的类型模式亦表明，语言*如何*表达否定会影响模型行为。与英语副词否定结构相似的语言能从基于英语的修正中受益；否定系统迥异的语言则不能。这意味着多语言AI的公平审计应考虑多样语言的结构，并检视模型及其修正是否充分捕捉。弥合差距可能需要：策划富含否定的多语言预训练数据、开发保留跨形态系统否定范围的切词策略、按类型组校准修正方法（如为不同语言组分别调优SpaceVLM阈值τ）。此外，因SpaceVLM将字幕拆分为肯定/否定分量依赖适合英语句法的解析策略，跨语言结构差异提示，微调多语言LLM以更准确提取各语言的肯定与否定分量，可在多语言情境下提升性能。

### 局限

翻译依赖Google Translate加每语言30条人工校验（约占0.5%）；完全人工校验将增强基准。我们用SpaceVLM默认英语优化超参评估，针对各语言调优阈值τ可能缩小观察到的跨语言差异。最后，我们评估三个开源VLM；扩展至专有及领域专用模型（如放射学VLM）是未来重要方向。

## 5 结论

我们提出首个VLM否定理解多语言基准，揭示即便明确多语言模型也存在显著跨语言否定差距。通过在七种类型多样语言上应用SpaceVLM，我们发现否定形态与模型行为相关联：副词否定语言持续受益于修正，形态复杂否定系统响应不一。这种差异表明语言类型影响模型对意义的解读，且对公平有实际影响。随着VLMs全球部署，捕捉类型多样性的基准对于确保对齐改进惠及所有语言社区、而非仅那些与英语结构相似的语言，至关重要。

视觉语言模型在多语言否定理解上的差异

相似文章

带否定的常识知识：一种提升否定理解能力的资源

视觉语言模型真的能进行视觉推理吗？模态差距的严格研究

打破幻觉：多模态解码中正负信号的博弈

探索大语言模型在中文抽象语言掌握中的能力边界

@cjzafir: 垂直语言模型（VLMs）正在击败顶级大语言模型。这些参数量7B到15B的小型专精模型在各自的细分领域击败了SoTA模型……

提交意见反馈