UrduMMLU:乌尔都语理解的大规模多任务基准测试
摘要
UrduMMLU是一个新基准测试,包含来自本土教育材料的26,431道多项选择题,涵盖26个学科,用于评估大语言模型在乌尔都语理解上的表现。对30个大语言模型的评估显示,Gemini-3.5-Flash表现最佳,而开源模型和区域特定学科仍构成重大挑战。
arXiv:2606.07167v1 公告类型:新
摘要:有意义的 multilingual 评估必须在目标语言和教育背景下测试模型。乌尔都语有超过2.3亿使用者,但目前缺乏一个基于本土教育来源的、类似MMLU的广泛基准测试。我们引入UrduMMLU,这是一个包含26,431道乌尔都语多项选择题的基准测试,涵盖26个学科和5个领域,数据来自本土乌尔都语题库和公共考试PDF。与基于翻译的资源不同,UrduMMLU既涵盖标准学术科目,也涵盖乌尔都语及区域特定内容。我们对考试部分通过双重人工标注和严格共识过滤进行标记。我们评估了30个大语言模型在英语和乌尔都语提示下的表现,进行了60次零样本评估,并进一步在两种提示语言下对四个开源大语言模型进行了多次少样本设置评估。Gemini-3.5-Flash表现最佳,达到了90.20%和90.34%的准确率,而其他模型均未超过85%。最强的开源模型落后了7.79和8.92个百分点,许多模型在乌尔都语为中心的人文学科上比STEM科目损失了25至40个百分点。少样本提示仅带来适度提升。UrduMMLU表明,当前大语言模型对乌尔都语知识的掌握仍不均衡,尤其是对于区域相关的内容。
查看缓存全文
缓存时间: 2026/06/08 09:22
# 面向乌尔都语理解的大规模多任务基准
来源:https://arxiv.org/html/2606.07167
Ahmer Tabassum1 Sarfraz Ahmad∗1 Hasan Iqbal∗1 Owais Aijaz1 Momina Ahsan1 Preslav Nakov1
1MBZUAI \{ahmer\.tabassum, sarfraz\.ahmad, hasan\.iqbal\}@mbzuai\.ac\.ae
项目 (https://mbzuai-nlp.github.io/UrduMMLU/)
UrduMMLU (https://huggingface.co/datasets/MBZUAI/UrduMMLU)
代码 (https://github.com/mbzuai-nlp/urdu-mmlu)
排行榜 (https://mbzuai-nlp.github.io/UrduMMLU/leaderboard.html)
###### 摘要
有意义的多语言评估必须在目标语言和教育背景下测试模型。乌尔都语拥有超过2.3亿使用者,但目前缺乏一个基于本土教育资源构建的、覆盖广泛的MMLU风格基准。我们推出UrduMMLU,这是一个包含26,431道乌尔都语选择题的基准测试,涵盖26个学科和五个领域,题目收集自本土乌尔都语选择题题库和公开考试PDF。与基于翻译的资源不同,UrduMMLU既包含标准学术科目,也包含乌尔都语和地区特有的内容。我们通过双重人工标注和严格共识过滤对取自考试的部分进行标注。我们在英文和乌尔都语提示下评估了30个大型语言模型,进行了60次零样本评估,并进一步在两种提示语言的多个几次样本设置下评估了四个开源模型。Gemini-3.5-Flash表现最佳,准确率达到90.20%和90.34%,而其他模型均未超过85%。最强的开源模型落后7.79和8.92个百分点,许多模型在乌尔都语为核心的人文学科上比STEM学科损失25到40个百分点。少量提示仅带来适度提升。UrduMMLU表明,当前大型语言模型中的乌尔都语知识仍不均匀,尤其对于地域性内容。
\[urdu\]rm\[ Path=fonts/, UprightFont = \*, Script=Arabic, Language=Urdu, Scale=0.85 \]NotoNastaliqUrdu-Regular.ttf
UrduMMLU: 面向乌尔都语理解的大规模多任务基准
Ahmer Tabassum††感谢:同等贡献。1 Sarfraz Ahmad∗1 Hasan Iqbal∗1 Owais Aijaz1 Momina Ahsan1 Preslav Nakov1
1MBZUAI
\{ahmer\.tabassum, sarfraz\.ahmad, hasan\.iqbal\}@mbzuai\.ac\.ae
项目 (https://mbzuai-nlp.github.io/UrduMMLU/)
UrduMMLU (https://huggingface.co/datasets/MBZUAI/UrduMMLU)
代码 (https://github.com/mbzuai-nlp/urdu-mmlu)
排行榜 (https://mbzuai-nlp.github.io/UrduMMLU/leaderboard.html)
## 1 引言
评估大型语言模型的知识和推理能力已成为自然语言处理的核心。诸如MMLU (Hendrycks等人,2021 (https://arxiv.org/html/2606.07167#bib.bib6)) 和MMLU-Pro (Wang等人,2024 (https://arxiv.org/html/2606.07167#bib.bib7)) 等基准测试被广泛使用,但它们都是英文的,并且主要反映英语教育文化背景。这限制了它们测试模型能力是否跨语言、文字和区域知识迁移的能力。因此,这些基准在多语言和文化多样性环境中仅提供了模型性能的部分视图。
参见图标题
图1:16阶段UrduMMLU构建流程(左)及由此产生的26,431道选择题基准测试按5个领域和26个子领域分解(右);扇区大小与选择题数量成正比。
这个问题对于乌尔都语尤为重要。乌尔都语有超过2.3亿使用者,拥有悠久的文学和教育传统,但缺乏覆盖广泛的评估资源。现有的乌尔都语基准主要集中在阅读理解、句法诊断、任务级自然语言处理评估或翻译后的推理基准上 (Kazi 和 Khoja,2026 (https://arxiv.org/html/2606.07167#bib.bib2); Kazi等人,2025 (https://arxiv.org/html/2606.07167#bib.bib3); Adeeba等人,2025 (https://arxiv.org/html/2606.07167#bib.bib4); Tahir等人,2025 (https://arxiv.org/html/2606.07167#bib.bib5); Shafique等人,2026 (https://arxiv.org/html/2606.07167#bib.bib1))。包含乌尔都语的多语言基准,如MMLU-ProX (Xuan等人,2025 (https://arxiv.org/html/2606.07167#bib.bib11))、Global-MMLU (Singh等人,2025 (https://arxiv.org/html/2606.07167#bib.bib9)) 和IndicMMLU-Pro (KJ等人,2025 (https://arxiv.org/html/2606.07167#bib.bib10)),也主要依赖翻译的题目。因此,它们仅部分捕捉到了基于乌尔都语教育的知识、乌尔都语文学、地方历史、宗教研究和公民课程。近期针对特定语言的基准,如ArabicMMLU (Koto等人,2024 (https://arxiv.org/html/2606.07167#bib.bib15))、CMMLU (Li等人,2024 (https://arxiv.org/html/2606.07167#bib.bib16))、IndoMMLU (Koto等人,2023 (https://arxiv.org/html/2606.07167#bib.bib17))、KMMLU (Son等人,2025 (https://arxiv.org/html/2606.07167#bib.bib18)) 和KazMMLU (Togmanov等人,2025 (https://arxiv.org/html/2606.07167#bib.bib19)) 强调了基于本地教育材料进行评估的重要性。遵循这一方向,我们推出UrduMMLU,这是首个覆盖广泛、以本土语撰写的乌尔都语MMLU风格基准。UrduMMLU包含26,431道选择题,涵盖26个学科和5个领域,题目收集自乌尔都语选择题题库和公开的SSC/HSSC考试PDF,结合了带答案标签的题目和通过双重人工标注及严格共识过滤标注的考试题目,既包含标准学术科目,也包含乌尔都语和地区特有内容。图1 (https://arxiv.org/html/2606.07167#S1.F1) 总结了最终的学科分布。我们在英文和乌尔都语提示下评估了30个开源和闭源大型语言模型,进行了60次零样本评估,并进一步在1、3和5次样本设置下评估了四个开源模型。Gemini-3.5-Flash (Google DeepMind,2026 (https://arxiv.org/html/2606.07167#bib.bib40)) 取得了最高准确率,分别为90.20%和90.34%,而最强的开源模型落后7.79和8.92个百分点。在各类模型中,STEM学科上的表现显著高于以乌尔都语为核心的人文学科,许多系统在乌尔都语文学、乌尔都语语言学和伊斯兰研究上损失了25到40个百分点。这些结果表明,强大的以英语为中心的基准性能并不能可靠地迁移到乌尔都语教育和文化知识上。它们也凸显了需要能更好捕捉英语之外语言和文化多样性的基准。本研究的主要贡献如下:
- • 我们推出了UrduMMLU,这是一个以本土乌尔都语撰写的MMLU风格基准,包含26,431道选择题,涵盖26个学科和5个领域,同时覆盖标准学术科目以及乌尔都语和地区特有知识。
- • 我们使用双重标注和严格共识过滤,为基准中取自考试的部分生成了人工标注的黄金答案。
- • 我们在英文和乌尔都语提示设置下,对30个开源和闭源大型语言模型进行了60次零样本评估,并对四个开源模型进行了24次额外的几次样本评估。
- • 我们发布了数据集和评估代码,以支持未来对乌尔都语能力语言模型的研究。
## 2 相关工作
##### 乌尔都语评估资源:现有的乌尔都语资源涵盖阅读理解、跨语言问答、句法和任务级自然语言处理。UQuAD+ (Kazi 和 Khoja,2026 (https://arxiv.org/html/2606.07167#bib.bib2)) 提供了带标注的乌尔都语阅读理解,而Kazi等人 (2025 (https://arxiv.org/html/2606.07167#bib.bib3)) 使用UQuAD1.0 (Kazi 和 Khoja,2021 (https://arxiv.org/html/2606.07167#bib.bib48)) 和SQuAD2.0 (Rajpurkar等人,2018 (https://arxiv.org/html/2606.07167#bib.bib49)) 研究了乌尔都语-英语问答。UrBLiMP (Adeeba等人,2025 (https://arxiv.org/html/2606.07167#bib.bib4)) 通过最小对评估乌尔都语句法,Tahir等人 (2025 (https://arxiv.org/html/2606.07167#bib.bib5)) 对模型在乌尔都语自然语言处理任务上进行了基准测试。在推理方面,UrduBench (Shafique等人,2026 (https://arxiv.org/html/2606.07167#bib.bib1)) 将MGSM (Shi等人,2023 (https://arxiv.org/html/2606.07167#bib.bib44))、CommonsenseQA (Talmor等人,2019 (https://arxiv.org/html/2606.07167#bib.bib45))、OpenBookQA (Mihaylov等人,2018 (https://arxiv.org/html/2606.07167#bib.bib47)) 和MATH-500 (Lightman等人,2024 (https://arxiv.org/html/2606.07167#bib.bib46)) 翻译成乌尔都语,而UrduFactCheck (Ahmad等人,2025 (https://arxiv.org/html/2606.07167#bib.bib52)) 则针对事实问答。这些资源仍然是任务特定、诊断性或基于翻译的。相比之下,UrduMMLU使用最初为乌尔都语教育环境编写的题目,评估广泛的教育知识。
##### 多语言基准:MMLU (Hendrycks等人,2021 (https://arxiv.org/html/2606.07167#bib.bib6)) 和MMLU-Pro (Wang等人,2024 (https://arxiv.org/html/2606.07167#bib.bib7)) 被广泛用于评估通用知识和推理。几个多语言扩展通过翻译来适配这些基准。MMLU-ProX (Xuan等人,2025 (https://arxiv.org/html/2606.07167#bib.bib11)) 通过基于大语言模型的翻译和专家评审将MMLU-Pro扩展到29种语言,而Global-MMLU (Singh等人,2025 (https://arxiv.org/html/2606.07167#bib.bib9)) 研究了多语言评估中的文化和语言偏见。IndicMMLU-Pro (KJ等人,2025 (https://arxiv.org/html/2606.07167#bib.bib10)) 将MMLU-Pro适配到九种印度语言,包括乌尔都语。其他基于多语言考试的资源,如EXAMS (Hardalov等人,2020 (https://arxiv.org/html/2606.07167#bib.bib13))、INCLUDE (Romanou等人,2025 (https://arxiv.org/html/2606.07167#bib.bib12)) 和MILU (Verma等人,2025 (https://arxiv.org/html/2606.07167#bib.bib14)),收集了跨多种语言和地区的考试题目。然而,乌尔都语仍然主要出现在翻译或跨语言设置中,而非通过专门的本土基准,这限制了在文化背景下进行公平的知识评估。
##### 本地化的MMLU风格基准:近期工作越来越多地从本地教育材料构建MMLU风格基准,而非翻译英语基准。ArabicMMLU (Koto等人,2024 (https://arxiv.org/html/2606.07167#bib.bib15))、CMMLU (Li等人,2024 (https://arxiv.org/html/2606.07167#bib.bib16))、IndoMMLU (Koto等人,2023 (https://arxiv.org/html/2606.07167#bib.bib17))、KMMLU (Son等人,2025 (https://arxiv.org/html/2606.07167#bib.bib18)) 和KazMMLU (Togmanov等人,2025 (https://arxiv.org/html/2606.07167#bib.bib19)) 表明,特定语言的课程和区域文化知识对于评估英语之外的大语言模型仍然重要。UrduMMLU为乌尔都语遵循了这一方向,结合了区域SSC/HSSC考试材料、本土乌尔都语选择题题库、对考试题目的手动标注,以及广泛覆盖标准学术科目和乌尔都语及巴基斯坦特有知识。
## 3 UrduMMLU
UrduMMLU是一个覆盖广泛的基准,用于评估乌尔都语的知识和推理。与基于翻译的多语言基准不同,UrduMMLU的题目直接来自乌尔都语教育和考试材料。该基准包含26,431道选择题,涵盖26个子领域和5个领域,同时包含标准学术科目以及乌尔都语和地区特有内容,如乌尔都语文学、乌尔都语语言学、伊斯兰研究和巴基斯坦研究。附录A.1 (https://arxiv.org/html/2606.07167#A1.SS1) 和图7 (https://arxiv.org/html/2606.07167#A1.F7) 提供了详细的基准统计和子领域分布。我们从乌尔都语选择题题库和公开的SSC/HSSC考试PDF中收集题目,并通过双重人工标注和严格共识过滤为考试题目生成黄金答案。我们围绕广泛的学科覆盖、乌尔都语教育材料的忠实呈现,以及通过清洁文本提取、标准化元数据和经验证的黄金标签实现的可靠多项选择评估,来设计UrduMMLU。图1 (https://arxiv.org/html/2606.07167#S1.F1) 总结了整体构建流程。
### 3.1 数据来源
我们从两个来源系列收集候选题目。第一个系列来自巴基斯坦公开的SSC和HSSC考试PDF,涵盖初中和高中水平科目,如数学、物理、化学、生物学、计算机科学、乌尔都语、伊斯兰研究、巴基斯坦研究和经济学。第二个系列来自本土乌尔都语选择题网站,这些网站发布了带答案标签的考试准备题目。这些来源共同使UrduMMLU能够既覆盖全球共享的学术科目,也覆盖乌尔都语教育课程中教授的地区特有教育内容。我们将所有收集的项目视为候选,并仅在清洁、答案标注或验证、去重和发布打包后,将其纳入最终基准。
### 3.2 原始选择题提取
对于基于PDF的来源,我们使用多阶段提取流程从异构的考试布局中恢复乌尔都语选择题。我们首先将每个PDF转换为页面图像,并使用Claude Opus 4.7 (Anthropic,2026a (https://arxiv.org/html/2606.07167#bib.bib28)) 作为OCR对每页进行分类,过滤掉纯英文页、非选择题页、答案键和无关材料。对于剩余页面,我们使用视觉语言OCR流程提取题目主干、答案选项、源元数据和页面级来源信息。我们专门为乌尔都语考试文档设计了提取提示。该提示保留了乌尔都语题目文本、答案选项、诗歌、引文以及其他正确回答题目所需的上下文。在双语材料中,我们忽略英文文本,除非它是乌尔都语题目的结构性部分,并丢弃无法阅读的题目,而不是重建缺失内容。对于基于网络的来源,我们在可用时直接抓取题目主干、答案选项、类别标签和答案键。
### 3.3 元数据和模式标准化
收集到的来源使用不同的类别名称、年级标签和答案格式,因此我们将所有示例标准化为统一表示。我们将特定来源的标签映射到受控的子领域集。例如,我们将“Everyday Science”和“General Science”等变体映射到“general science”,将与数学相关的标签如“maths”、“General Mathematics”和“riazi”映射到“mathematics”。对于课程材料,我们将年级标签标准化为区域考试级别:9年级对应SSC-I,10年级对应SSC-II,11年级对应HSSC-I,12年级对应HSSC-II。附录C.1 (https://arxiv.org/html/2606.07167#A3.SS1) 中的表13 (https://arxiv.org/html/2606.07167#A3.T13) 总结了UrduMMLU中涵盖的最终领域层次结构、子领域、缩写和考试级别。
我们还将选择题模式规范化为支持一致评估。每个发布的项目存储一个问题、四个答案选项、标准化的领域和子领域标签、学术级别、源元数据和答案标注。由于不同来源遵循不同的选项排序约定,我们移除了模糊的基于索引的答案字段。
### 3.4 清洁与质量控制
我们应用多个清洁和验证步骤,以减少来自OCR、网页抓取和异构源格式的噪声。首先,我们通过从右到左显示标准化、标点和引号标准化、填空标记标准化,以及视觉上相似的阿拉伯语和乌尔都语码点的Unicode标准化,对乌尔都语文本表示进行标准化。然后,我们通过移除缺少、为空、重复或格式错误的答案选项的项目,丢弃选项计数无效的示例,并将选项字段标准化为一致的格式,来强制执行结构有效性。接下来,我们对候选池进行去重。我们合并具有一致答案的完全重复项,同时保留源来源,并丢弃具有冲突标签的重复组。为处理OCR和措辞变体,我们额外应用基于高题目标记重叠的保守近似去重过滤。相似文章
UA-Legal-Bench:评估大语言模型在乌克兰法律推理能力的基准
介绍了UA-Legal-Bench,这是一个基于统一国家法院判决登记册构建的、用于评估大语言模型在乌克兰法律推理能力的五项任务基准。评估了11个LLM,揭示了任务相关的少样本效应以及在不平衡法律任务中准确率的误导性。
KMMMU:韩语及韩国文化背景下的大规模多学科多模态理解评估
KMMMU 是一个用于评估韩语多模态理解的本地化韩文基准,包含 3,466 道题目,涵盖九个学科和视觉模态类别,通过测试韩国特定文化和制度背景下的性能,填补了以英文为中心的基准的空白。
HalluScore:大语言模型幻觉问答基准
介绍HalluScore,一个结构化的阿拉伯语问答基准,用于评估大语言模型在不同推理难度、知识领域和文化背景下的幻觉。包含827个带有验证证据和注释的问题,已在17个大语言模型上测试。
MLUBench: 多模态大语言模型终身遗忘评估基准
MLUBench 是一个大规模的多模态大语言模型终身遗忘基准,包含9个类别的127个实体。论文指出现有遗忘方法存在累积退化问题,并提出 LUMoE 来缓解此问题,显示出显著改进。
CulturALL:评测大模型多语言多文化能力的实景基准
CulturALL 发布含 2,610 条样本、覆盖 14 种语言和 51 个地区的实景基准,用于检验大模型在真实文化场景下的表现;目前最佳模型仅得 44.48%,提升空间巨大。