多模态视觉语言模型中的人类区域适应性

Hugging Face Daily Papers 论文

摘要

本文介绍了人类区域适应性,这是一种优化视觉语言模型以适应特定区域情境同时保持全局泛化能力的范式。作者提出了GG-EZ,一种利用区域数据过滤和模型合并的适应方法,在三种视觉语言架构上为东南亚地区展示了5-15%的文化相关性提升。

尽管视觉语言(VL)领域在跨多种语言和领域整合视觉与文本信息方面取得了显著成功,但目前仍缺乏专门的框架来评估视觉语言系统中以人为中心的对齐。我们提出了两项贡献来解决这一差距。首先,我们引入了人类区域适应性:一种新颖的范式,旨在优化模型对特定区域情境的相关性,同时确保保留全局泛化能力。其次,我们提出了一种简单而有效的适应方法,名为“轻松实现地理泛化”(GG-EZ),该方法利用区域数据过滤和模型合并。通过在三种视觉语言架构(大型视觉语言模型、文本到图像扩散模型和视觉语言嵌入模型)上的全面实验,以及在东南亚(SEA)区域适应的案例研究,我们证明了人类区域适应性的重要性以及GG-EZ的有效性,在SEA地区展示了5-15%的文化相关性指标提升,同时保持了超过98%的全局性能,甚至偶尔超越。我们的研究结果将人类区域对齐确立为多模态视觉语言模型在不同区域适用性的基础范式,并展示了一种简单而有效的基线方法,该方法在保持全局泛化的同时优化了区域价值对齐。
查看原文
查看缓存全文

缓存时间: 2026/04/20 08:29

论文页面 - 多模态视觉语言模型中的人为区域适应

来源:https://huggingface.co/papers/2604.11490 尽管视觉-语言(VL)领域在跨多种语言和领域整合视觉与文本信息方面取得了显著成功,但目前仍缺乏评估视觉-语言系统中人类中心对齐的专门框架。

我们提供两项贡献以填补这一空白。首先,我们引入人为区域适应:一种旨在优化模型对特定区域上下文的相关性,同时确保保留全球泛化能力的新范式。其次,我们提出一种简单但有效的适应方法,名为Geographical-generalization-made-easy(GG-EZ),该方法利用区域数据筛选和模型合并。

通过在三种VL架构(大型视觉-语言模型、文本到图像扩散模型和视觉-语言嵌入模型)上进行的综合实验,以及在东南亚(SEA)区域适应的案例研究,我们展示了人为区域适应的重要性以及GG-EZ的有效性。结果显示,在东南亚地区的文化相关性指标上实现了5-15%的提升,同时保持了超过98%的全球性能,甚至偶尔有所超越。

我们的研究成果将人为区域对齐确立为基础性范式,旨在推动多模态视觉-语言模型在多样化地区的适用性,并提供了一种简单而有效的基线方法,在优化区域价值对齐的同时保留了全球泛化能力。

在此查看我们的HuggingFace集合(https://huggingface.co/collections/SEACrowd/sea-vl-phase-2-multimodal-vision-language-models-for-sea)。

相似文章

超越英语:揭示视觉-语言-动作模型中的多语言差距

arXiv cs.CL

本文首次系统研究了视觉-语言-动作(VLA)模型中的多语言指令跟随问题,揭示了当模型基于英语训练时,在其他语言上的性能显著下降。作者提出了多语言主成分对齐(MPCA)方法来缩小多语言性能差距。