实际环境中的多语言多模态大语言模型:面向低资源语言的构建

arXiv cs.CL 论文

摘要

本教程论文概述了如何为低资源语言构建多语言多模态大语言模型,涵盖数据创建、模型对齐、微调和评估,重点提供实用方案和动手资源。

arXiv:2605.17152v1 公告类型:新 摘要:多模态大语言模型正从视觉-语言模式向能看、能听、能读的三模态模式演进,然而其流程和基准仍以英语为中心且计算密集。本教程概述了这一新兴研究领域,即在有限数据和计算预算下,实现跨文本、语音和视觉的多语言多模态,综合了基础理论、近期多语言模型(PALO、Maya)以及语音-文本大语言模型。我们涵盖低成本数据创建与整理;用于三模态对齐的适配器堆栈;超越英语的文化感知评估;以及微调紧凑型多语言VLM和构建语音→文本→大语言模型管道的动手资源。内容将以半天的互动教程形式呈现,面向在低资源语言环境下从事多语言、多模态人工智能的研究人员和实践者。
查看原文
查看缓存全文

缓存时间: 2026/05/19 06:38

# 野外多语言多模态LLM:面向低资源语言的构建
来源:https://arxiv.org/html/2605.17152
Firoj Alam, Shammur Absar Chowdhury, Enamul Hoque Prince 卡塔尔计算研究所,HBKU,卡塔尔;约克大学,加拿大 \{fialam, shchowdhury\}@hbku\.edu\.qa, enamulh@yorku\.ca https://mm-llms-in-the-wild.github.io/

野外多语言多模态LLM:面向低资源语言的构建

Firoj Alam, Shammur Absar Chowdhury, Enamul Hoque Prince
卡塔尔计算研究所,HBKU,卡塔尔;约克大学,加拿大
\{fialam, shchowdhury\}@hbku\.edu\.qa, enamulh@yorku\.ca
https://mm-llms-in-the-wild.github.io/

## 1 摘要

多模态大语言模型正从视觉-语言向三模态(*看、听和读*)进化,但相关流水线和基准仍以英语为中心且计算密集。本教程概述了这一新兴研究领域,聚焦于*多语言* *多模态*跨文本、语音和视觉,在有限数据/计算预算下的研究,综合了基础理论、近期多语言模型(PALO、Maya)以及语音-文本LLM。我们将涵盖:低成本数据创建/整理;用于三模态对齐的适配器堆栈;超越英语的*文化感知*评估;以及用于微调紧凑型多语言VLM和构建语音→文本→LLM流水线的实践资源。内容将以半日互动教程的形式呈现,面向从事低资源语言场景下多语言、多模态AI的研究人员和实践者。

## 2 引言

多模态大语言模型(LMMs)正在变革我们构建AI系统的方式:它们不再仅仅阅读文本,还能*看*、*听*和*读*——将视觉、音频和文本信号整合到统一架构中(Alam等,2025 (https://arxiv.org/html/2605.17152#bib.bib22))。调查表明,虽然LMMs发展迅速,但大多数数据集、基准和模型仍严重以英语为中心,并针对高资源语言和场景优化(Yin和Fu,2024 (https://arxiv.org/html/2605.17152#bib.bib9);Wu等,2023 (https://arxiv.org/html/2605.17152#bib.bib8))。这导致许多低资源语言、方言以及特定文化模态(尤其是在多语言、语音与视觉情境下)未能得到充分支持。

多语言与多模态AI社区——涵盖NLP、语音处理和计算机视觉——正处于关键节点。一方面,我们拥有在高端资源环境中展现出强大能力的基础模型(如视觉-语言系统);另一方面,研究弱势语言的社区缺乏支持三模态(文本、语音、视觉)流程的工具、数据集和评估协议,尤其是在资源受限环境中。近期工作(如PaLI、mSLAM)显示了多语言跨模态预训练的前景(Chen等,2022 (https://arxiv.org/html/2605.17152#bib.bib5);Bapna等,2022 (https://arxiv.org/html/2605.17152#bib.bib6)),但在端到端流水线、文化根基扎实的基准以及针对现实世界低资源部署的高效架构方面,仍然存在巨大空白。

在本教程中,我们将汇聚多语言多模态LMM的最新进展,并提供可重复的实用配方,涵盖数据创建(涉及不同学科的文本、语音、视觉)、模型对齐、微调和评估,明确聚焦于低资源语言和文化语境。我们将介绍基础模型和架构,探讨评估与偏差问题,并提供动手实验,用于微调紧凑型多语言视觉-语言模型以及构建语音→文本→LLM流水线。我们的目标是,为从事多语言、多模态AI的研究人员和工程师配备可操作的工具、清单和基准,助力他们构建超越高资源常态的包容性、有根基的AI系统。

### 2.1 多模态与多语言模型基础

我们将回顾大模型的演进:从基于Transformer架构的纯文本LLM(Vaswani等,2017 (https://arxiv.org/html/2605.17152#bib.bib206)),到视觉-语言模型(如BLIP-2、LLaVA),再到如今统一的语音-文本-视觉系统(如PaLM-E、AudioPaLM)。我们将重点说明,这些模型的跨语言扩展虽然尚处初期,但为弱势语言中的包容性AI开辟了道路。我们还将讨论各模态如何提供互补信息,例如视觉或音频语境可以弥补低资源语言中文本数据的稀缺(Lupascu等,2025 (https://arxiv.org/html/2605.17152#bib.bib7))。

### 2.2 低资源多模态的挑战

低资源语言带来了诸多障碍:配对的文本/图像/音频数据稀缺、基准缺失、方言/文字差异大、大型模型的计算约束。例如,一项调查发现,在涉及75种语言的106项低资源多模态学习研究中,绝大多数聚焦于文本+图像对,却忽略了音频或视频模态(Lupascu等,2025 (https://arxiv.org/html/2605.17152#bib.bib7))。我们将分析关键瓶颈:数据创建、模态对齐、预训练模型的适配以及评估框架,并探讨这些因素如何阻碍在现实世界多语言/多模态场景中的部署。

### 2.3 方言挑战

大规模收集方言多模态数据需要应对标准VQA语料库极少面临的问题。在*EverydayMMQA*/OASIS中,我们必须:(i) 招募并平衡来自18个国家和阿拉伯语变体的母语者;(ii) 捕捉自然包含方言音系、语码转换和区域特有词汇的*口语*问题;(iii) 将语音/文本提示与超越对象标签的文化根基图像对齐;(iv) 在不同正字法和地方惯例下验证答案。在评估方面,我们的基准强调语用、常识和文化感知方面,并通过四种输入模式(纯语音、纯文本、语音+图像、文本+图像)揭示了方言场景下的典型失败模式(例如,对方言词的误解、对ASR噪声的敏感性、来自英语的较弱的迁移能力)。总体而言,该研究凸显了当前通用多模态LLM与方言丰富、日常查询需求之间的显著差距,并为明确植根于本地文化的训练和评估流水线提供了动机。

### 2.4 对本社区的相关性

本教程对于从事多语言NLP、语音处理和视觉交叉领域的研究人员和实践者来说恰逢其时。其相关性涵盖:

- • 为弱势语言(例如阿拉伯语方言、印度语言、非洲语言、东南亚语言)构建多模态数据集和模型。
- • 通过PEFT、适配器和MoE等技术,以有限的数据和计算资源适应大型视觉-语言-语音模型。
- • 超越英语的模型评估:文化感知基准、方言韧性、模态鲁棒性。
- • 部署包容且可访问的系统,关注语言多样性、文字/方言变化以及社会语境。

### 2.5 本教程提供的内容

本教程指导参与者为低资源场景构建包容性的多语言、多模态系统(文本、语音和视觉)。我们从LLM的演进开始,涵盖其架构、多语言扩展和多模态变体。然后探索具体的模型族:视觉-语言(如PALO)、语音-文本LMM(SeamlessM4T、AudioPaLM)以及多语言多模态模型(如Maya)。接着深入动手方法:低成本数据创建与整理(翻译、弱监督、过滤);高效训练(PEFT、适配器、混合专家);以及三模态对齐流程。随后考察评估与部署:多语言文化基准(xGQA、HaVQA)、可视化数据集(FigureQA、CharXiv)、方言测试,以及处理幻觉、偏见、毒性以及计算/延迟权衡。教程大纲见第6节 (https://arxiv.org/html/2605.17152#S6)。

## 3 教程类型

本教程兼具入门性与前沿性:既涵盖与LLM能力相关的多个主题,又覆盖这些领域的一些最新进展。参会者将获得LLM相关任务、语言、方言和模态的概览,从而能够在该领域开展研究。教程面向任何对将LLM用于NLP、语音和多模态任务感兴趣的人。我们认为从事低资源语言研究的人员会尤其感兴趣。

## 4 教程组织者

- • Firoj Alam (http://sites.google.com/site/firojalam/) 是卡塔尔计算研究所(QCRI),HBKU的科学家。
- • Shammur Absar Chowdhury 是卡塔尔计算研究所(QCRI),HBKU的科学家。
- • Enamul Hoque (https://www.yorku.ca/enamulh/) 是约克大学的副教授。

## 5 目标受众

NLP、语音和视觉领域的研究人员和实践者,尤其是那些为低资源语言、方言或文化根基领域构建系统的人。适合具备基础LLM微调经验的研究生、学术/行业ML工程师以及数据集整理者。不需要太多语音或视觉背景;我们将提供丰富材料。寻求实用PEFT配方、多模态适配器以及鲁棒、文化感知评估的参会者将获益最大。

## 6 大纲

以下是本教程的大纲。接受后将提供更多信息和材料,在线教程网站上可获取。

### 6.1 引言

1. (i) 为何三模态(文本-视觉-语音)对低资源和全球南方情境至关重要
2. (ii) 从视觉-语言到通用多模态:BLIP-2、LLaVA、KOSMOS-1、PaLM-E
3. (iii) 本教程的独特贡献:多语言聚焦、语音集成、效率(PEFT/MoE)、文化感知评估

*参考文献:* Li等,2023 (https://arxiv.org/html/2605.17152#bib.bib10);Liu等,2023 (https://arxiv.org/html/2605.17152#bib.bib11);Huang等,2023 (https://arxiv.org/html/2605.17152#bib.bib13);Driess等,2023 (https://arxiv.org/html/2605.17152#bib.bib23)

### 6.2 多语言和多模态模型

以下是代表性模型;教程中还将涵盖更多系统。

1. (i) 视觉-语言(多语言)
   1. (a) PALO(10语言LMM)、Maya(8语言、毒性感知数据流水线)
2. (ii) 语音-文本LMM
   1. (a) SeamlessM4T(统一S2S/S2T/T2S/T2T/ASR)、AudioPaLM(联合语音+文本)
3. (iii) 用于流水线的鲁棒ASR主干
   1. (a) Whisper(弱监督、多语言)

*参考文献:* Rasheed等,2024 (https://arxiv.org/html/2605.17152#bib.bib14);Alam等,2024b (https://arxiv.org/html/2605.17152#bib.bib15);SEAMLESS Communication Team 等,2025 (https://arxiv.org/html/2605.17152#bib.bib16);Rubenstein等,2023 (https://arxiv.org/html/2605.17152#bib.bib17);Radford等,2022 (https://arxiv.org/html/2605.17152#bib.bib225)

### 6.3 多语言与多模态资源开发

#### 6.3.1 多语言与多模态资源

1. (i) 低成本流水线:翻译与回译、弱监督、OCR/ASR引导
2. (ii) 安全性与文化:毒性过滤、人口统计平衡、许可/同意(Maya案例研究)
3. (iii) 资源导向:多语言V+L评估集(xGQA、MaRVL、HaVQA)及训练数据考量

*参考文献:* Alam等,2025 (https://arxiv.org/html/2605.17152#bib.bib22), 2024b (https://arxiv.org/html/2605.17152#bib.bib15);Pfeiffer等,2022 (https://arxiv.org/html/2605.17152#bib.bib19);Liu等,2021 (https://arxiv.org/html/2605.17152#bib.bib20);Parida等,2023 (https://arxiv.org/html/2605.17152#bib.bib21)

#### 6.3.2 跨视觉和结构化模态的推理

1. (i) 可视化数据集(FigureQA、CharXiv、ChartQAPro、DashboardQA)
2. (ii) 推理技术:多模态思维链、ReAct提示、面向空间/表格数据的结构化解码

*参考文献:* Kahou等,2018 (https://arxiv.org/html/2605.17152#bib.bib1);Wang等,2024 (https://arxiv.org/html/2605.17152#bib.bib2);Masry等,2025 (https://arxiv.org/html/2605.17152#bib.bib3);Kartha等,2026 (https://arxiv.org/html/2605.17152#bib.bib4)

### 6.4 架构与高效训练

1. (i) VLM的适配器/投影堆栈(如BLIP-2 Q-Former),早期融合 vs. 晚期融合
2. (ii) PEFT实践(LoRA/QLoRA)、受限VRAM下的量化注意事项
3. (iii) 面向模态/语言专业化的混合专家:MoME、Uni-MoE;路由与容量因子

*参考文献:* Li等,2023 (https://arxiv.org/html/2605.17152#bib.bib10);Shen等,2024 (https://arxiv.org/html/2605.17152#bib.bib18);Li等,2025 (https://arxiv.org/html/2605.17152#bib.bib24)

### 6.5 以语音为中心的LLM

1. (i) 构建语音→文本→LLM用于VQA/QA;流式处理、VAD/说话人标注钩子
2. (ii) 统一语音-文本LMM vs. 级联:部署权衡(延迟、鲁棒性、覆盖范围)

*参考文献:* Radford等,2022 (https://arxiv.org/html/2605.17152#bib.bib225);SEAMLESS Communication Team 等,2025 (https://arxiv.org/html/2605.17152#bib.bib16);Rubenstein等,2023 (https://arxiv.org/html/2605.17152#bib.bib17)

### 6.6 评估、基准资源、错误分析

1. (i) 文化感知、多语言基准和诊断(xGQA、MaRVL、HaVQA)
2. (ii) 压力测试:方言转换、噪声/遮挡、OCR密集型输入、幻觉与接地检查

*参考文献:* Pfeiffer等,2022 (https://arxiv.org/html/2605.17152#bib.bib19);Liu等,2021 (https://arxiv.org/html/2605.17152#bib.bib20);Parida等,2023 (https://arxiv.org/html/2605.17152#bib.bib21)

### 6.7 资源与演示应用及总结 [25分钟]

1. (i) 用LoRA微调紧凑型多语言VLM;在文化感知切片上快速评估
2. (ii) 将语音前端(Whisper/Seamless)接入指令微调的LLM;衡量ASR→任务影响

*参考文献:* Liu等,2023 (https://arxiv.org/html/2605.17152#bib.bib11);SEAMLESS Communication Team 等,2025 (https://arxiv.org/html/2605.17152#bib.bib16)

## 7 技术要求

无特殊要求;我们将使用组织方提供的标准音视频设备。

## 8 多样性考量

我们将举办一场包容性的教程,反映语言、文化、地理和学科多样性。

对学术多样性的贡献。
教程聚焦多语言、多模态的*日常知识*,并明确联结语言、语音和视觉社区。我们突出低资源和特定文化语境,鼓励学术界、工业界和公共利益团体之间的合作。

代表性。
我们将积极在全球范围内宣传本教程,特别面向代表性不足的地区和社区进行推广,确保来自世界各地的参与。我们的推广将包括不同的邮件列表和社交媒体。

## 9 阅读清单

相关论文已列在第6节 (https://arxiv.org/html/2605.17152#S6)。

## 10 演讲者

##### Firoj Alam (http://sites.google.com/site/firojalam/publications)

(卡塔尔计算研究所,HBKU)是高级科学家,IEEE和ACM高级会员。他共同组织过多个研讨会和共享任务,包括BLP-2023和COLING-2025的GenAI内容检测。他的共享任务经历包括CLEF的CheckThat!实验室(2021-2025)、NLP4IF 2021和SemEval 2021任务6。他曾共同组织过EACL-2024的教程。他还担任过多个会议的PC和SPC成员。

##### Shammur Absar Chowdhury

(卡塔尔计算研究所,HBKU)是高级科学家。她的研究兴趣包括口语理解、对话系统、计算社会科学和语言技术交叉领域。她共同组织过LREC-COLING 2024的研讨会,并担任过多个NLP会议(包括ACL、EMNLP、EACL、NAACL)的PC成员。

##### Enamul Hoque

(约克大学)是副教授,研究方向包括多模态AI、NLP和人机交互。他在卡内基梅隆大学获得博士学位。他共同组织过COLING-2025、AAAI-2025、NAACL-2024、EMNLP-2023的教程。他担任过ACL、EMNLP、NAACL、EACL、AAAI、NeurIPS等会议的领域主席/高级PC成员。

相似文章

大语言模型在低资源语言人文学科研究中的机遇与挑战

arXiv cs.CL

本文系统评估了大语言模型在低资源语言研究中的应用,分析了在语言变异、历史文献、文化表达和文学分析等方面的机遇与挑战。研究强调了跨学科合作和定制化模型开发,以保护语言和文化遗产,同时解决数据可获取性、模型适应性和文化敏感性问题。

迈向超越英语中心化开发的大语言模型

arXiv cs.CL

本文证明了大语言模型严重偏向英语,并表明持续预训练在将模型适配到其他语言(尤其是文化理解方面)时,并不比从头训练更具成本优势。

LLM Wiki v2(16分钟阅读)

TLDR AI

本文介绍了一种利用LLM构建个人知识库的模式,为在大语言模型辅助下进行知识管理提供了结构化方法。

通过令牌剪枝优化韩语中心的大语言模型

arXiv cs.CL

本文系统地评估了令牌剪枝这一压缩技术在韩语中心的LLM任务上的应用,该技术通过移除与无关语言对应的令牌和嵌入参数来压缩模型。研究评估了流行的多语言模型(Qwen3、Gemma-3、Llama-3、Aya)在不同词汇配置下的表现,发现令牌剪枝能显著改进生成稳定性并降低特定领域部署的内存占用。