多模态视觉语言模型中的人类区域适应性
摘要
本文介绍了人类区域适应性,这是一种优化视觉语言模型以适应特定区域情境同时保持全局泛化能力的范式。作者提出了GG-EZ,一种利用区域数据过滤和模型合并的适应方法,在三种视觉语言架构上为东南亚地区展示了5-15%的文化相关性提升。
查看缓存全文
缓存时间: 2026/04/20 08:29
论文页面 - 多模态视觉语言模型中的人为区域适应
来源:https://huggingface.co/papers/2604.11490 尽管视觉-语言(VL)领域在跨多种语言和领域整合视觉与文本信息方面取得了显著成功,但目前仍缺乏评估视觉-语言系统中人类中心对齐的专门框架。
我们提供两项贡献以填补这一空白。首先,我们引入人为区域适应:一种旨在优化模型对特定区域上下文的相关性,同时确保保留全球泛化能力的新范式。其次,我们提出一种简单但有效的适应方法,名为Geographical-generalization-made-easy(GG-EZ),该方法利用区域数据筛选和模型合并。
通过在三种VL架构(大型视觉-语言模型、文本到图像扩散模型和视觉-语言嵌入模型)上进行的综合实验,以及在东南亚(SEA)区域适应的案例研究,我们展示了人为区域适应的重要性以及GG-EZ的有效性。结果显示,在东南亚地区的文化相关性指标上实现了5-15%的提升,同时保持了超过98%的全球性能,甚至偶尔有所超越。
我们的研究成果将人为区域对齐确立为基础性范式,旨在推动多模态视觉-语言模型在多样化地区的适用性,并提供了一种简单而有效的基线方法,在优化区域价值对齐的同时保留了全球泛化能力。
在此查看我们的HuggingFace集合(https://huggingface.co/collections/SEACrowd/sea-vl-phase-2-multimodal-vision-language-models-for-sea)。
相似文章
从结构到协同:多模态大语言模型中视觉-语言感知范式演进的综述
本综述论文系统回顾了多模态大语言模型(MLLMs)中统一视觉-语言感知的范式演进,提出了五阶段分类法,并指出了通向通用多模态智能的开放挑战。
政治话语中大型语言模型的文化适应
本文探讨了在政治话语中使大型语言模型适应文化语境的方法,旨在增进跨文化理解并减少偏见。
基于大型视觉-语言模型利用遥感影像进行建成环境推理
本文探讨了利用大型视觉-语言模型处理遥感影像以进行建成环境推理任务(如设计建议和风险识别)。研究评估了 InternVL 和 Qwen 等模型,突显了其在支持智慧城市决策和定量推理方面的潜力。
超越英语:揭示视觉-语言-动作模型中的多语言差距
本文首次系统研究了视觉-语言-动作(VLA)模型中的多语言指令跟随问题,揭示了当模型基于英语训练时,在其他语言上的性能显著下降。作者提出了多语言主成分对齐(MPCA)方法来缩小多语言性能差距。
StableVLA:迈向无需额外数据的稳健视觉-语言-动作模型
本文为视觉-语言-动作(VLA)模型引入了一种信息瓶颈适配器(IB-Adapter),旨在提升模型在未见过的视觉干扰下的鲁棒性,且无需额外数据,在极小的参数开销下实现了高达30%的性能提升。