实际环境中的多语言多模态大语言模型：面向低资源语言的构建

arXiv cs.CL 2026/05/19 04:00 论文

multilingual multimodal llm low-resource tutorial fine-tuning evaluation

摘要

本教程论文概述了如何为低资源语言构建多语言多模态大语言模型，涵盖数据创建、模型对齐、微调和评估，重点提供实用方案和动手资源。

arXiv:2605.17152v1 公告类型：新摘要：多模态大语言模型正从视觉-语言模式向能看、能听、能读的三模态模式演进，然而其流程和基准仍以英语为中心且计算密集。本教程概述了这一新兴研究领域，即在有限数据和计算预算下，实现跨文本、语音和视觉的多语言多模态，综合了基础理论、近期多语言模型（PALO、Maya）以及语音-文本大语言模型。我们涵盖低成本数据创建与整理；用于三模态对齐的适配器堆栈；超越英语的文化感知评估；以及微调紧凑型多语言VLM和构建语音→文本→大语言模型管道的动手资源。内容将以半天的互动教程形式呈现，面向在低资源语言环境下从事多语言、多模态人工智能的研究人员和实践者。

查看原文

查看缓存全文

缓存时间: 2026/05/19 06:38

# 野外多语言多模态LLM：面向低资源语言的构建
来源：https://arxiv.org/html/2605.17152
Firoj Alam, Shammur Absar Chowdhury, Enamul Hoque Prince 卡塔尔计算研究所，HBKU，卡塔尔；约克大学，加拿大 \{fialam, shchowdhury\}@hbku\.edu\.qa, enamulh@yorku\.ca https://mm-llms-in-the-wild.github.io/

野外多语言多模态LLM：面向低资源语言的构建

Firoj Alam, Shammur Absar Chowdhury, Enamul Hoque Prince
卡塔尔计算研究所，HBKU，卡塔尔；约克大学，加拿大
\{fialam, shchowdhury\}@hbku\.edu\.qa, enamulh@yorku\.ca
https://mm-llms-in-the-wild.github.io/

## 1 摘要

多模态大语言模型正从视觉-语言向三模态（*看、听和读*）进化，但相关流水线和基准仍以英语为中心且计算密集。本教程概述了这一新兴研究领域，聚焦于*多语言* *多模态*跨文本、语音和视觉，在有限数据/计算预算下的研究，综合了基础理论、近期多语言模型（PALO、Maya）以及语音-文本LLM。我们将涵盖：低成本数据创建/整理；用于三模态对齐的适配器堆栈；超越英语的*文化感知*评估；以及用于微调紧凑型多语言VLM和构建语音→文本→LLM流水线的实践资源。内容将以半日互动教程的形式呈现，面向从事低资源语言场景下多语言、多模态AI的研究人员和实践者。

## 2 引言

多模态大语言模型（LMMs）正在变革我们构建AI系统的方式：它们不再仅仅阅读文本，还能*看*、*听*和*读*——将视觉、音频和文本信号整合到统一架构中（Alam等，2025 (https://arxiv.org/html/2605.17152#bib.bib22)）。调查表明，虽然LMMs发展迅速，但大多数数据集、基准和模型仍严重以英语为中心，并针对高资源语言和场景优化（Yin和Fu，2024 (https://arxiv.org/html/2605.17152#bib.bib9)；Wu等，2023 (https://arxiv.org/html/2605.17152#bib.bib8)）。这导致许多低资源语言、方言以及特定文化模态（尤其是在多语言、语音与视觉情境下）未能得到充分支持。

多语言与多模态AI社区——涵盖NLP、语音处理和计算机视觉——正处于关键节点。一方面，我们拥有在高端资源环境中展现出强大能力的基础模型（如视觉-语言系统）；另一方面，研究弱势语言的社区缺乏支持三模态（文本、语音、视觉）流程的工具、数据集和评估协议，尤其是在资源受限环境中。近期工作（如PaLI、mSLAM）显示了多语言跨模态预训练的前景（Chen等，2022 (https://arxiv.org/html/2605.17152#bib.bib5)；Bapna等，2022 (https://arxiv.org/html/2605.17152#bib.bib6)），但在端到端流水线、文化根基扎实的基准以及针对现实世界低资源部署的高效架构方面，仍然存在巨大空白。

在本教程中，我们将汇聚多语言多模态LMM的最新进展，并提供可重复的实用配方，涵盖数据创建（涉及不同学科的文本、语音、视觉）、模型对齐、微调和评估，明确聚焦于低资源语言和文化语境。我们将介绍基础模型和架构，探讨评估与偏差问题，并提供动手实验，用于微调紧凑型多语言视觉-语言模型以及构建语音→文本→LLM流水线。我们的目标是，为从事多语言、多模态AI的研究人员和工程师配备可操作的工具、清单和基准，助力他们构建超越高资源常态的包容性、有根基的AI系统。

### 2.1 多模态与多语言模型基础

我们将回顾大模型的演进：从基于Transformer架构的纯文本LLM（Vaswani等，2017 (https://arxiv.org/html/2605.17152#bib.bib206)），到视觉-语言模型（如BLIP-2、LLaVA），再到如今统一的语音-文本-视觉系统（如PaLM-E、AudioPaLM）。我们将重点说明，这些模型的跨语言扩展虽然尚处初期，但为弱势语言中的包容性AI开辟了道路。我们还将讨论各模态如何提供互补信息，例如视觉或音频语境可以弥补低资源语言中文本数据的稀缺（Lupascu等，2025 (https://arxiv.org/html/2605.17152#bib.bib7)）。

### 2.2 低资源多模态的挑战

低资源语言带来了诸多障碍：配对的文本/图像/音频数据稀缺、基准缺失、方言/文字差异大、大型模型的计算约束。例如，一项调查发现，在涉及75种语言的106项低资源多模态学习研究中，绝大多数聚焦于文本+图像对，却忽略了音频或视频模态（Lupascu等，2025 (https://arxiv.org/html/2605.17152#bib.bib7)）。我们将分析关键瓶颈：数据创建、模态对齐、预训练模型的适配以及评估框架，并探讨这些因素如何阻碍在现实世界多语言/多模态场景中的部署。

### 2.3 方言挑战

大规模收集方言多模态数据需要应对标准VQA语料库极少面临的问题。在*EverydayMMQA*/OASIS中，我们必须：(i) 招募并平衡来自18个国家和阿拉伯语变体的母语者；(ii) 捕捉自然包含方言音系、语码转换和区域特有词汇的*口语*问题；(iii) 将语音/文本提示与超越对象标签的文化根基图像对齐；(iv) 在不同正字法和地方惯例下验证答案。在评估方面，我们的基准强调语用、常识和文化感知方面，并通过四种输入模式（纯语音、纯文本、语音+图像、文本+图像）揭示了方言场景下的典型失败模式（例如，对方言词的误解、对ASR噪声的敏感性、来自英语的较弱的迁移能力）。总体而言，该研究凸显了当前通用多模态LLM与方言丰富、日常查询需求之间的显著差距，并为明确植根于本地文化的训练和评估流水线提供了动机。

### 2.4 对本社区的相关性

本教程对于从事多语言NLP、语音处理和视觉交叉领域的研究人员和实践者来说恰逢其时。其相关性涵盖：

- • 为弱势语言（例如阿拉伯语方言、印度语言、非洲语言、东南亚语言）构建多模态数据集和模型。
- • 通过PEFT、适配器和MoE等技术，以有限的数据和计算资源适应大型视觉-语言-语音模型。
- • 超越英语的模型评估：文化感知基准、方言韧性、模态鲁棒性。
- • 部署包容且可访问的系统，关注语言多样性、文字/方言变化以及社会语境。

### 2.5 本教程提供的内容

本教程指导参与者为低资源场景构建包容性的多语言、多模态系统（文本、语音和视觉）。我们从LLM的演进开始，涵盖其架构、多语言扩展和多模态变体。然后探索具体的模型族：视觉-语言（如PALO）、语音-文本LMM（SeamlessM4T、AudioPaLM）以及多语言多模态模型（如Maya）。接着深入动手方法：低成本数据创建与整理（翻译、弱监督、过滤）；高效训练（PEFT、适配器、混合专家）；以及三模态对齐流程。随后考察评估与部署：多语言文化基准（xGQA、HaVQA）、可视化数据集（FigureQA、CharXiv）、方言测试，以及处理幻觉、偏见、毒性以及计算/延迟权衡。教程大纲见第6节 (https://arxiv.org/html/2605.17152#S6)。

## 3 教程类型

本教程兼具入门性与前沿性：既涵盖与LLM能力相关的多个主题，又覆盖这些领域的一些最新进展。参会者将获得LLM相关任务、语言、方言和模态的概览，从而能够在该领域开展研究。教程面向任何对将LLM用于NLP、语音和多模态任务感兴趣的人。我们认为从事低资源语言研究的人员会尤其感兴趣。

## 4 教程组织者

- • Firoj Alam (http://sites.google.com/site/firojalam/) 是卡塔尔计算研究所（QCRI），HBKU的科学家。
- • Shammur Absar Chowdhury 是卡塔尔计算研究所（QCRI），HBKU的科学家。
- • Enamul Hoque (https://www.yorku.ca/enamulh/) 是约克大学的副教授。

## 5 目标受众

NLP、语音和视觉领域的研究人员和实践者，尤其是那些为低资源语言、方言或文化根基领域构建系统的人。适合具备基础LLM微调经验的研究生、学术/行业ML工程师以及数据集整理者。不需要太多语音或视觉背景；我们将提供丰富材料。寻求实用PEFT配方、多模态适配器以及鲁棒、文化感知评估的参会者将获益最大。

## 6 大纲

以下是本教程的大纲。接受后将提供更多信息和材料，在线教程网站上可获取。

### 6.1 引言

1. (i) 为何三模态（文本-视觉-语音）对低资源和全球南方情境至关重要
2. (ii) 从视觉-语言到通用多模态：BLIP-2、LLaVA、KOSMOS-1、PaLM-E
3. (iii) 本教程的独特贡献：多语言聚焦、语音集成、效率（PEFT/MoE）、文化感知评估

*参考文献：* Li等，2023 (https://arxiv.org/html/2605.17152#bib.bib10)；Liu等，2023 (https://arxiv.org/html/2605.17152#bib.bib11)；Huang等，2023 (https://arxiv.org/html/2605.17152#bib.bib13)；Driess等，2023 (https://arxiv.org/html/2605.17152#bib.bib23)

### 6.2 多语言和多模态模型

以下是代表性模型；教程中还将涵盖更多系统。

1. (i) 视觉-语言（多语言）
   1. (a) PALO（10语言LMM）、Maya（8语言、毒性感知数据流水线）
2. (ii) 语音-文本LMM
   1. (a) SeamlessM4T（统一S2S/S2T/T2S/T2T/ASR）、AudioPaLM（联合语音+文本）
3. (iii) 用于流水线的鲁棒ASR主干
   1. (a) Whisper（弱监督、多语言）

*参考文献：* Rasheed等，2024 (https://arxiv.org/html/2605.17152#bib.bib14)；Alam等，2024b (https://arxiv.org/html/2605.17152#bib.bib15)；SEAMLESS Communication Team 等，2025 (https://arxiv.org/html/2605.17152#bib.bib16)；Rubenstein等，2023 (https://arxiv.org/html/2605.17152#bib.bib17)；Radford等，2022 (https://arxiv.org/html/2605.17152#bib.bib225)

### 6.3 多语言与多模态资源开发

#### 6.3.1 多语言与多模态资源

1. (i) 低成本流水线：翻译与回译、弱监督、OCR/ASR引导
2. (ii) 安全性与文化：毒性过滤、人口统计平衡、许可/同意（Maya案例研究）
3. (iii) 资源导向：多语言V+L评估集（xGQA、MaRVL、HaVQA）及训练数据考量

*参考文献：* Alam等，2025 (https://arxiv.org/html/2605.17152#bib.bib22), 2024b (https://arxiv.org/html/2605.17152#bib.bib15)；Pfeiffer等，2022 (https://arxiv.org/html/2605.17152#bib.bib19)；Liu等，2021 (https://arxiv.org/html/2605.17152#bib.bib20)；Parida等，2023 (https://arxiv.org/html/2605.17152#bib.bib21)

#### 6.3.2 跨视觉和结构化模态的推理

1. (i) 可视化数据集（FigureQA、CharXiv、ChartQAPro、DashboardQA）
2. (ii) 推理技术：多模态思维链、ReAct提示、面向空间/表格数据的结构化解码

*参考文献：* Kahou等，2018 (https://arxiv.org/html/2605.17152#bib.bib1)；Wang等，2024 (https://arxiv.org/html/2605.17152#bib.bib2)；Masry等，2025 (https://arxiv.org/html/2605.17152#bib.bib3)；Kartha等，2026 (https://arxiv.org/html/2605.17152#bib.bib4)

### 6.4 架构与高效训练

1. (i) VLM的适配器/投影堆栈（如BLIP-2 Q-Former），早期融合 vs. 晚期融合
2. (ii) PEFT实践（LoRA/QLoRA）、受限VRAM下的量化注意事项
3. (iii) 面向模态/语言专业化的混合专家：MoME、Uni-MoE；路由与容量因子

*参考文献：* Li等，2023 (https://arxiv.org/html/2605.17152#bib.bib10)；Shen等，2024 (https://arxiv.org/html/2605.17152#bib.bib18)；Li等，2025 (https://arxiv.org/html/2605.17152#bib.bib24)

### 6.5 以语音为中心的LLM

1. (i) 构建语音→文本→LLM用于VQA/QA；流式处理、VAD/说话人标注钩子
2. (ii) 统一语音-文本LMM vs. 级联：部署权衡（延迟、鲁棒性、覆盖范围）

*参考文献：* Radford等，2022 (https://arxiv.org/html/2605.17152#bib.bib225)；SEAMLESS Communication Team 等，2025 (https://arxiv.org/html/2605.17152#bib.bib16)；Rubenstein等，2023 (https://arxiv.org/html/2605.17152#bib.bib17)

### 6.6 评估、基准资源、错误分析

1. (i) 文化感知、多语言基准和诊断（xGQA、MaRVL、HaVQA）
2. (ii) 压力测试：方言转换、噪声/遮挡、OCR密集型输入、幻觉与接地检查

*参考文献：* Pfeiffer等，2022 (https://arxiv.org/html/2605.17152#bib.bib19)；Liu等，2021 (https://arxiv.org/html/2605.17152#bib.bib20)；Parida等，2023 (https://arxiv.org/html/2605.17152#bib.bib21)

### 6.7 资源与演示应用及总结 [25分钟]

1. (i) 用LoRA微调紧凑型多语言VLM；在文化感知切片上快速评估
2. (ii) 将语音前端（Whisper/Seamless）接入指令微调的LLM；衡量ASR→任务影响

*参考文献：* Liu等，2023 (https://arxiv.org/html/2605.17152#bib.bib11)；SEAMLESS Communication Team 等，2025 (https://arxiv.org/html/2605.17152#bib.bib16)

## 7 技术要求

无特殊要求；我们将使用组织方提供的标准音视频设备。

## 8 多样性考量

我们将举办一场包容性的教程，反映语言、文化、地理和学科多样性。

对学术多样性的贡献。
教程聚焦多语言、多模态的*日常知识*，并明确联结语言、语音和视觉社区。我们突出低资源和特定文化语境，鼓励学术界、工业界和公共利益团体之间的合作。

代表性。
我们将积极在全球范围内宣传本教程，特别面向代表性不足的地区和社区进行推广，确保来自世界各地的参与。我们的推广将包括不同的邮件列表和社交媒体。

## 9 阅读清单

相关论文已列在第6节 (https://arxiv.org/html/2605.17152#S6)。

## 10 演讲者

##### Firoj Alam (http://sites.google.com/site/firojalam/publications)

（卡塔尔计算研究所，HBKU）是高级科学家，IEEE和ACM高级会员。他共同组织过多个研讨会和共享任务，包括BLP-2023和COLING-2025的GenAI内容检测。他的共享任务经历包括CLEF的CheckThat！实验室（2021-2025）、NLP4IF 2021和SemEval 2021任务6。他曾共同组织过EACL-2024的教程。他还担任过多个会议的PC和SPC成员。

##### Shammur Absar Chowdhury

（卡塔尔计算研究所，HBKU）是高级科学家。她的研究兴趣包括口语理解、对话系统、计算社会科学和语言技术交叉领域。她共同组织过LREC-COLING 2024的研讨会，并担任过多个NLP会议（包括ACL、EMNLP、EACL、NAACL）的PC成员。

##### Enamul Hoque

（约克大学）是副教授，研究方向包括多模态AI、NLP和人机交互。他在卡内基梅隆大学获得博士学位。他共同组织过COLING-2025、AAAI-2025、NAACL-2024、EMNLP-2023的教程。他担任过ACL、EMNLP、NAACL、EACL、AAAI、NeurIPS等会议的领域主席/高级PC成员。

相似文章

LLMs-as-a-Judge在多语言环境和低资源语言中的挑战与建议

arXiv cs.CL

本文分析了LLM-as-a-Judge在多语言和低资源场景下的应用，发现评估结果不一致且过度信任LLM判断，并提出了改进实践的建议。

大语言模型在低资源语言人文学科研究中的机遇与挑战

arXiv cs.CL

本文系统评估了大语言模型在低资源语言研究中的应用，分析了在语言变异、历史文献、文化表达和文学分析等方面的机遇与挑战。研究强调了跨学科合作和定制化模型开发，以保护语言和文化遗产，同时解决数据可获取性、模型适应性和文化敏感性问题。

迈向超越英语中心化开发的大语言模型

arXiv cs.CL

本文证明了大语言模型严重偏向英语，并表明持续预训练在将模型适配到其他语言（尤其是文化理解方面）时，并不比从头训练更具成本优势。

面向计算社会科学与人文学科的负责任且基于认识论的多语言LLM

arXiv cs.CL

本文讨论了在计算社会科学与人文学科应用中，需要具有认识论基础且负责任的多语言LLM。

Linguistic Monoculture in LLM-Assisted Language Use

arXiv cs.AI

This paper introduces a mathematical framework to study how reliance on shared LLMs for writing may reduce population-level linguistic diversity, analyzing fixed, recursive, and personalized interaction mechanisms and characterizing equilibria and convergence rates.

相似文章

LLMs-as-a-Judge在多语言环境和低资源语言中的挑战与建议

大语言模型在低资源语言人文学科研究中的机遇与挑战

迈向超越英语中心化开发的大语言模型

面向计算社会科学与人文学科的负责任且基于认识论的多语言LLM

Linguistic Monoculture in LLM-Assisted Language Use

提交意见反馈