视觉语言模型在多语言否定理解上的差异
摘要
MIT 研究人员发布首个涵盖七种语言的多语言否定基准,发现 CLIP 等模型在非拉丁文字上表现不佳,而 MultiCLIP 与 SpaceVLM 在各语言间的提升并不均衡。
arXiv:2604.18942v1 公告类型:新增
摘要:视觉语言模型(VLM)存在“肯定偏差”:系统性地倾向选择肯定描述(“X 存在”),即使正确描述含否定(“无 X”)。此前研究已在英语中记录该缺陷并提出解决方案,但否定在不同语言中通过形态、词序、附着形式等差异呈现,这些方案能否公平服务所有语言社区仍存疑。我们推出首个经人工校验的多语言否定基准,覆盖七种类型迥异的语言:英语、汉语普通话、阿拉伯语、希腊语、俄语、他加禄语、西班牙语。评估 CLIP、SigLIP、MultiCLIP 三种 VLM 后发现,标准 CLIP 在非拉丁文字语言上的准确率等于或低于随机水平,而 MultiCLIP 获得最高且最均衡的准确率。我们还测试了针对否定的修正方法 SpaceVLM,发现其在英语、希腊语、西班牙语、他加禄语上显著提升,而在类型差异大的语言上效果不一。这种差异表明,形态、文字、否定结构等语言属性与模型改进以公平相关的方式交互。随着 VLM 全球部署,多语言基准不仅关乎“方案是否有效”,更关乎“对谁有效”。
查看缓存全文
缓存时间: 2026/04/22 08:29
# 视觉-语言模型在否定理解上的跨语言差异 来源:https://arxiv.org/html/2604.18942 Charikleia Moraitaki∗Sarah Pan∗Skyler Pulling∗ Gwendolyn Flusche∗Kumail Alhamoud Marzyeh Ghassemi 麻省理工学院 ∗同等贡献 ###### 摘要 视觉-语言模型(VLMs)表现出*肯定偏差*:即使正确描述包含否定(“没有X”),系统仍倾向于选择肯定字幕(“X存在”)。先前研究仅在英语中记录了这一失效模式并提出解决方案,但否定在不同语言中通过形态、语序、附着化等差异呈现,引发这些解决方案是否公平服务所有语言社区的疑问。我们推出首个经人工校验的多语言否定基准,覆盖七种类型多样的语言:英语、汉语、阿拉伯语、希腊语、俄语、他加禄语和西班牙语。评估CLIP、SigLIP、MultiCLIP三款VLMs后发现,标准CLIP在非拉丁文字语言上表现不高于随机,而MultiCLIP获得最高且最均衡的准确率。我们进一步测试最新提出的否定修正方法SpaceVLM,发现其在若干语言——特别是英语、希腊语、西班牙语和他加禄语——带来显著提升,而在类型迥异的语言上效果不一。这种差异揭示形态、文字、否定结构等语言属性与模型改进以公平相关的方式交互。随着VLMs全球部署,多语言基准对于理解解决方案不仅“是否有效”,而且“对谁有效”至关重要。 ## 1 引言 给语言模型的提示绝大多数是肯定式:“生成一张有狗的图像”“给我一个包含食谱的列表”。当我们使用否定呢?Alhamoud等人(2025)的最新研究表明,最先进的视觉-语言模型(VLMs)经常在否定查询上失败,表现出*肯定偏差*:只因出现“船”一词,就将字幕“没有船”与含船的图像匹配。这一失效在下游场景后果严重——放射学中,“无胸腔积液”与“胸腔积液存在”决定病灶是否被标记或忽略。 然而,现有否定理解评估仅聚焦英语。这是一大缺口,因为否定并非千篇一律。例如,英语用简单副词粒子(“no”“not”),希腊语则用动词否定加存在结构(“δεν υπάρχει”=“不存在”),阿拉伯语在从右至左的文字中使用附着化标记,汉语依赖孤立粒子并承担不同语义功能。这些结构差异可能影响VLM行为,而英语单语基准无法反映。这对公平至关重要,因大语言模型 disproportionately 围绕英语及少数高资源语言构建,形成“数字语言鸿沟”,系统性地让全球大多数语言处于劣势(Bella 等,2023)。先前研究已广泛记录NLP中跨语言的系统性性能不平等(Blasi 等,2022),若VLMs同样对某些语言社区的否定处理更好,则构成值得关注的公平问题——尤其当这些系统进入安全关键领域。 我们的主要贡献是首个VLM多语言否定基准,覆盖七种类型多样的语言。利用该基准,我们发现即便明确多语言的VLMs也存在显著跨语言否定差距,语言间性能差异高达27.5个百分点。我们进一步将最近提出的否定修正方法SpaceVLM(Ranjan 等,2025)应用于所有语言,发现其有效性与语言形态表达否定的方式相关。这种差异本身具有启示:它显示语言结构以影响公平部署的方式塑造模型行为。 ## 2 方法 ### 基准构建 我们扩展英语NegBench数据集(Alhamoud 等,2025),该数据集含5,914组来自COCO(Lin 等,2014)的图像-字幕四选一,翻译至七种类型多样的语言:英语、西班牙语、希腊语、他加禄语(用独立粒子否定),俄语和阿拉伯语(形态复杂否定),汉语(孤立语,不同语义功能用不同否定粒子)。这些语言覆盖拉丁与非拉丁文字、左向与右向书写、多个语系。翻译先用Google Translate,再由母语者人工校验(每语言30条),确保否定标记正确、否定句语义与英语原文一致、目标语言自然。 ### 模型与评估 我们评估三种对比式VLM,代表不同训练范式:CLIP(Radford 等,2021)(主要英语训练)、SigLIP(Zhai 等,2023)(多语言)、MultiCLIP(Carlsson 等,2022)(多语言)。我们还测试应用SpaceVLM(Ranjan 等,2025)后的效果,该方法用阈值τ=0.92(源自英语数据)将字幕拆分为肯定与否定分量并计算混合嵌入。指标为四选一字幕排序的Top-1准确率(随机=25%)。 ## 3 结果 ### 即便多语言VLM也存在显著否定差距 表1总结基线性能。CLIP差异最极端:英语39.3%,而阿拉伯语(15.7%)、他加禄语(11.8%)、希腊语(18.0%)均*低于*随机,表明系统性失效。SigLIP经多语言训练,将差距收窄至7.4个百分点。MultiCLIP表现最均衡(标准差1.3%),但平均41.2%的准确率显示最佳多语言模型整体仍对否定理解吃力。 表1:基线跨语言否定性能。即便最公平的MultiCLIP平均准确率仅41%,显示多语言训练本身无法解决否定理解。 ### SpaceVLM作为诊断透镜 SpaceVLM在若干语言带来显著提升,但增益不均且呈类型模式(表2)。采用独立粒子否定(Miestamo,2005)的语言,如英语、西班牙语、希腊语、他加禄语,在三模型上均获得一致大幅提升(+9.0至+27.5pp)。而形态复杂否定(俄语、阿拉伯语)或语义功能不同的孤立粒子(汉语)的语言,提升较小或不稳定。 表2:SpaceVLM揭示类型模式(Δ=SpaceVLM−基线)。绿色:增益>5pp;红色:下降>5pp。副词否定语言持续受益;形态复杂否定语言效果不一,显示否定结构影响行为。 ### 模式稳健 我们将SpaceVLM应用于NegCLIP和ConCLIP——针对英语否定微调的模型(Yuksekgonul 等,2023)——同样出现该类型模式:英语大幅提升(57–69%),阿拉伯语(18–20%)、俄语(27–29%)、汉语(35–39%)差距依旧。该模式在五种模型-方案组合中持续存在,表明其反映这些语言编码否定的真实属性。 ## 4 讨论:公平部署的启示 VLMs在英语否定处理上优于其他语言,构成模型可靠性在语言社区间的明显差距。这在安全关键应用中尤为令人担忧,不同结果沿语言线提供不等服务质量。我们的基准使这些差距可量化。我们观察到的类型模式亦表明,语言*如何*表达否定会影响模型行为。与英语副词否定结构相似的语言能从基于英语的修正中受益;否定系统迥异的语言则不能。这意味着多语言AI的公平审计应考虑多样语言的结构,并检视模型及其修正是否充分捕捉。弥合差距可能需要:策划富含否定的多语言预训练数据、开发保留跨形态系统否定范围的切词策略、按类型组校准修正方法(如为不同语言组分别调优SpaceVLM阈值τ)。此外,因SpaceVLM将字幕拆分为肯定/否定分量依赖适合英语句法的解析策略,跨语言结构差异提示,微调多语言LLM以更准确提取各语言的肯定与否定分量,可在多语言情境下提升性能。 ### 局限 翻译依赖Google Translate加每语言30条人工校验(约占0.5%);完全人工校验将增强基准。我们用SpaceVLM默认英语优化超参评估,针对各语言调优阈值τ可能缩小观察到的跨语言差异。最后,我们评估三个开源VLM;扩展至专有及领域专用模型(如放射学VLM)是未来重要方向。 ## 5 结论 我们提出首个VLM否定理解多语言基准,揭示即便明确多语言模型也存在显著跨语言否定差距。通过在七种类型多样语言上应用SpaceVLM,我们发现否定形态与模型行为相关联:副词否定语言持续受益于修正,形态复杂否定系统响应不一。这种差异表明语言类型影响模型对意义的解读,且对公平有实际影响。随着VLMs全球部署,捕捉类型多样性的基准对于确保对齐改进惠及所有语言社区、而非仅那些与英语结构相似的语言,至关重要。
相似文章
带否定的常识知识:一种提升否定理解能力的资源
研究者提出一种自动为常识知识语料添加否定信息的方法,生成逾200万条三元组,用于预训练可显著提升大模型对否定的理解。
视觉语言模型真的能进行视觉推理吗?模态差距的严格研究
本文介绍了CrossMath,一个受控多模态推理基准,揭示了当前视觉语言模型的一个关键局限:它们主要在文本空间进行推理,而非真正的视觉接地推理,视觉输入往往会降低性能相比仅文本基线。作者提出了微调方法来减轻这种模态差距并改进多模态推理能力。
打破幻觉:多模态解码中正负信号的博弈
本文提出了正负解码(PND),这是一种无需训练的推理框架,通过在解码过程中对比正向视觉证据与负向反事实来减少视觉-语言模型中的对象幻觉。
探索大语言模型在中文抽象语言掌握中的能力边界
本文介绍了Mouse基准测试,用于评估大语言模型在六个自然语言处理领域的中文抽象语言任务表现。研究表明,尽管当前最先进的模型在上下文理解任务中表现良好,但在这种亚文化网络语言上仍存在重大局限。
@cjzafir: 垂直语言模型(VLMs)正在击败顶级大语言模型。这些参数量7B到15B的小型专精模型在各自的细分领域击败了SoTA模型……
作者演示了,通过使用开源模型和Codex编排进行高性价比微调,小型垂直语言模型(6B-15B)能够在细分基准上超越顶级大语言模型,仅用价值300美元的数据集就取得了成果。