QIMMA قِمّة ⛰: 以质量为核心的阿拉伯语 LLM 排行榜
摘要
QIMMA 是由 TII UAE 推出的全新以质量为核心的阿拉伯语 LLM 排行榜,它在评估前对基准测试进行验证,以确保性能测量的准确性。该排行榜通过严格的多阶段验证流程,解决了现有阿拉伯语 NLP 基准测试中存在的系统性质量问题。
查看缓存全文
缓存时间: 2026/05/08 09:03
QIMMA قِمّة ⛰:以质量为先的阿拉伯语 LLM 排行榜
来源:https://huggingface.co/blog/tiiuae/qimma-arabic-leaderboard 返回文章 (https://huggingface.co/blog)
- 🔍 问题所在:阿拉伯语 NLP 评估碎片化且未经充分验证 (https://huggingface.co/blog/tiiuae/qimma-arabic-leaderboard#%F0%9F%94%8D-the-problem-arabic-nlp-evaluation-is-fragmented-and-unvalidated)
- ⛰ QIMMA 包含什么? (https://huggingface.co/blog/tiiuae/qimma-arabic-leaderboard#%E2%9B%B0-whats-in-qimma)
- 🔬 质量验证流程 (https://huggingface.co/blog/tiiuae/qimma-arabic-leaderboard#%F0%9F%94%AC-the-quality-validation-pipeline)- 第一阶段:多模型自动评估 (https://huggingface.co/blog/tiiuae/qimma-arabic-leaderboard#stage-1-multi-model-automated-assessment) - 第二阶段:人工标注与审核 (https://huggingface.co/blog/tiiuae/qimma-arabic-leaderboard#stage-2-human-annotation-and-review)
- ⚠️ 我们的发现:系统性质量问题 (https://huggingface.co/blog/tiiuae/qimma-arabic-leaderboard#%E2%9A%A0%EF%B8%8F-what-we-found-systematic-quality-problems)- 数据概览 (https://huggingface.co/blog/tiiuae/qimma-arabic-leaderboard#by-the-numbers) - 问题分类 (https://huggingface.co/blog/tiiuae/qimma-arabic-leaderboard#taxonomy-of-issues-found)
- 💻 代码基准测试:另一种质量工作 (https://huggingface.co/blog/tiiuae/qimma-arabic-leaderboard#%F0%9F%92%BB-code-benchmark-a-different-kind-of-quality-work)
- ⚙️ 评估设置 (https://huggingface.co/blog/tiiuae/qimma-arabic-leaderboard#%E2%9A%99%EF%B8%8F-evaluation-setup)- 评估框架 (https://huggingface.co/blog/tiiuae/qimma-arabic-leaderboard#evaluation-framework) - 按任务类型的指标 (https://huggingface.co/blog/tiiuae/qimma-arabic-leaderboard#metrics-by-task-type) - 提示模板 (https://huggingface.co/blog/tiiuae/qimma-arabic-leaderboard#prompt-templates)
- 排行榜结果 (https://huggingface.co/blog/tiiuae/qimma-arabic-leaderboard#%F0%9F%8F%86-leaderboard-results)- 规模与性能的关系 (https://huggingface.co/blog/tiiuae/qimma-arabic-leaderboard#the-size-performance-relationship)
- 🌟 QIMMA 的独特之处 (https://huggingface.co/blog/tiiuae/qimma-arabic-leaderboard#%F0%9F%8C%9F-what-makes-qimma-different)
- 🔗 资源 (https://huggingface.co/blog/tiiuae/qimma-arabic-leaderboard#%F0%9F%94%97-resources)
- 🔖 引用 (https://huggingface.co/blog/tiiuae/qimma-arabic-leaderboard#%F0%9F%94%96-citation)
image (https://cdn-uploads.huggingface.co/production/uploads/66c8620a79b42e5c941b0265/NCnP1M7Ce__41kiS-V7hW.png)
QIMMA 在评估模型之前先验证基准测试,确保报告的分数真实反映 LLM 的阿拉伯语语言能力。
如果你一直在关注阿拉伯语 LLM 评估,你可能已经注意到一个日益突出的矛盾:基准测试和排行榜的数量在快速增长,但我们是否真的在测量我们认为自己在测量的东西?
我们构建了 QIMMA قمّة(阿拉伯语意为“顶峰“),来系统地回答这个问题。与直接聚合现有阿拉伯语基准测试并运行模型不同,我们在任何评估开始之前就应用了严格的质量验证流程。我们的发现令人警醒:即使是广泛使用、备受推崇的阿拉伯语基准测试,也存在系统性的质量问题,这些问题会悄然腐蚀评估结果。
本文将介绍 QIMMA 是什么、我们如何构建它、发现了哪些问题,以及清理之后模型排名呈现怎样的面貌。
image (https://cdn-uploads.huggingface.co/production/uploads/66c8620a79b42e5c941b0265/JFGUze00t2twAEsj6XxCm.png)
🔍 问题所在:阿拉伯语 NLP 评估碎片化且未经充分验证
阿拉伯语有 4 亿多使用者,涵盖多样的方言和文化背景,但阿拉伯语 NLP 评估领域仍然碎片化。以下几个关键痛点推动了这项工作:
翻译问题。 许多阿拉伯语基准测试是从英语翻译而来的。这会引入分布偏移。在英语中自然的问题,翻译成阿拉伯语后变得别扭或文化错位,使基准数据难以代表阿拉伯语的自然使用方式。
缺乏质量验证。 即使是原生阿拉伯语基准测试,在发布时也常常缺乏严格的质量检查。标注不一致、错误的标准答案、编码错误以及标准标签中的文化偏见等问题,在已有资源中都有记录。
可复现性差距。 评估脚本和逐样本输出很少公开发布,这使得结果审计或后续工作难以开展。
覆盖碎片化。 现有排行榜覆盖孤立的任务和狭窄的领域,难以进行全面的模型评估。
为了说明 QIMMA 相对于现有平台的位置:
| 排行榜 | 开源 | 原生阿拉伯语 | 质量验证 | 代码评估 | 公开输出 |
|---|---|---|---|---|---|
| OALL v1 | ✅ | 混合 | ❌ | ❌ | ✅ |
| OALL v2 | ✅ | mostly | ❌ | ❌ | ✅ |
| BALSAM | 部分 | 50% | ❌ | ❌ | ❌ |
| AraGen | ✅ | 100% | ✅ | ❌ | ❌ |
| SILMA ABL | ✅ | 100% | ✅ | ❌ | ✅ |
| ILMAAM | 部分 | 100% | ✅ | ❌ | ❌ |
| HELM Arabic | ✅ | 混合 | ❌ | ❌ | ✅ |
| ⛰ QIMMA | ✅ | 99% | ✅ | ✅ | ✅ |
QIMMA 是唯一一个同时具备以下五种特性的平台:开源、以原生阿拉伯语内容为主、系统化质量验证、代码评估,以及公开逐样本推理输出。
⛰ QIMMA 包含什么?
QIMMA 将 14 个来源基准测试 的 109 个子集 整合为统一的评估套件,包含超过 52,000 个样本,涵盖 7 个领域:
| 领域 | 基准测试 | 任务类型 |
|---|---|---|
| 文化 | AraDiCE-Culture, ArabCulture, PalmX | MCQ |
| STEM | ArabicMMLU, GAT, 3LM STEM | MCQ |
| 法律 | ArabLegalQA, MizanQA | MCQ, QA |
| 医学 | MedArabiQ, MedAraBench | MCQ, QA |
| 安全 | AraTrust | MCQ |
| 诗歌与文学 | FannOrFlop | QA |
| 编程 | 3LM HumanEval+, 3LM MBPP+ | Code |
这一设计有几个突出特点:
- 99% 原生阿拉伯语内容。 唯一的例外是代码评估,这本质上是语言无关的。
- 首个包含代码评估的阿拉伯语排行榜。 QIMMA 整合了 HumanEval+ 和 MBPP+ 的阿拉伯语适配版本,使得用阿拉伯语题目陈述评估编程能力成为可能。
- 领域和任务的多样性。 QIMMA 评估现实世界的能力领域,包括教育、治理、医疗、创意表达和软件开发。
🔬 质量验证流程
这是 QIMMA 的方法论核心。在运行任何模型之前,我们对每个基准测试中的每个样本应用了多阶段验证流程。
第一阶段:多模型自动评估
每个样本由两个最先进的 LLM 独立评估:
- Qwen3-235B-A22B-Instruct
- DeepSeek-V3-671B
我们选择了两个具有强大阿拉伯语能力但训练数据组成不同的模型,因此它们的联合判断比单独任何一个都更可靠。
每个模型根据10 点评分标准对样本进行评分,每项标准为二元分数(0 或 1):
QIMMA 流程
如果任一模型给样本打分低于 7/10,该样本将被淘汰。两个模型都同意淘汰的样本直接丢弃。然而,如果只有一个模型标记了某个样本,则进入第二阶段的人工审核。
第二阶段:人工标注与审核
被标记的样本由具有文化和方言背景的阿拉伯语母语者审核。人工标注员对以下内容做最终判断:
- 文化背景和区域变体
- 方言细微差别
- 主观解读
- 自动评估可能遗漏的细微质量问题
对于文化敏感内容,会考虑多种视角,因为“正确性“在不同阿拉伯地区之间确实可能存在差异。
⚠️ 我们的发现:系统性质量问题
该流程揭示了各基准测试中反复出现的质量问题;这不是孤立错误,而是反映基准测试原始构建方式存在差距的系统性模式。
数据概览
| 基准测试 | 总样本数 | 丢弃数 | 丢弃率 |
|---|---|---|---|
| ArabicMMLU | 14,163 | 436 | 3.1% |
| MizanQA | 1,769 | 412 | 2.3% |
| PalmX | 3,001 | 250 | 0.8% |
| MedAraBench | 4,960 | 33 | 0.7% |
| FannOrFlop | 6,984 | 43 | 0.6% |
| ArabCulture | 3,482 | 7 | 0.2% |
| MedArabiQ | 499 | 1 | 0.2% |
| GAT | 13,986 | 1 | ~0.0% |
| 3LM STEM | 2,609 | 1 | ~0.0% |
| AraDiCE-Culture | 180 | 0 | 0.0% |
| ArabLegalQA | 790 | 0 | 0.0% |
| AraTrust | 522 | 0 | 0.0% |
问题分类
⚖️ 答案质量
错误或匹配错误的黄金索引、事实性错误答案、缺失或原始文本答案。
📄 文本和格式质量
损坏或难以辨认的文本、拼写和语法错误,以及重复样本。
💬 文化敏感性
强化刻板印象和对多元社区的单一化概括。
🤝 标准答案合规性
标准答案与评估协议不一致。
💻 代码基准测试:另一种质量工作
代码基准测试需要不同的干预方式。我们没有丢弃样本,而是对 3LM 的 HumanEval+ 和 MBPP+ 阿拉伯语适配版本中的阿拉伯语题目陈述进行了优化,任务标识符、参考解决方案和测试套件完全保持不变。
修改比例令人瞩目:
| 基准测试 | 总提示数 | 已修改 | 未修改 | 修改率 |
|---|---|---|---|---|
| 3LM HumanEval+ | 164 | 145 | 19 | 88% |
| 3LM MBPP+ | 378 | 308 | 70 | 81% |
修改分为五类:
- 语言优化:规范化为自然的现代标准阿拉伯语,保持祈使语气一致
- 清晰度提升:修复歧义指令和不明确的约束条件
- 一致性规范化:统一数学术语、标点符号和示例格式
- 结构性修正:修复损坏的三引号字符串、缩进错误、损坏的文本片段
- 语义优化:明确范围是否包含端点,保留任务意图
⚙️ 评估设置
评估框架
QIMMA 使用 LightEval (https://github.com/huggingface/lighteval)、EvalPlus (https://github.com/evalplus/evalplus) 和 FannOrFlop (https://github.com/mbzuai-oryx/FannOrFlop) 作为其评估框架,选择依据是一致性、多语言社区采用度和可复现性。
按任务类型的指标
| 任务类型 | 指标 | 基准测试 |
|---|---|---|
| MCQ | 归一化对数似然准确率 | AraDiCE-Culture, ArabicMMLU, ArabCulture, PalmX, 3LM STEM, MedArabiQ, GAT, MedAraBench, AraTrust |
| 多选 MCQ | 黄金选项上的概率质量 | MizanQA |
| 生成式 QA | F1 BERTScore (AraBERT v02) | MedArabiQ, ArabLegalQA, FannOrFlop |
| 编程 | Pass@1 | 3LM HumanEval+, 3LM MBPP+ |
提示模板
QIMMA 按题目格式标准化提示,共有六种模板类型:
QIMMA 提示模板MCQ:通用多选题 · MCQ-C:带上下文段落的多选题 · MCQ-I:带特定指令的多选题(GAT 类比/补全) · QA:通用开放式问答 · QA-C:带上下文的问答 · QA-F:填空式问答
所有提示均为阿拉伯语。对于 MizanQA 和 ArabCulture,保留原始论文中的基准测试特定系统提示。
🏆 排行榜结果
截至 2026 年 4 月的结果;涵盖前 10 名已评估模型。访问实时排行榜获取当前排名。
| 排名 | 模型 | 平均分 | AraDiCE-Culture | ArabicMMLU | ArabCulture | PALMX | 3LM STEM | AraTrust | MizanQA | MedArabiQ | ArabLegalQA | GAT | MedAraBench | HumanEval+ | MBPP+ | FannOrFlop |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 🥇 1 | Qwen/Qwen3.5-397B-A17B-FP8 | 68.06 | 82.78 | 77.54 | 61.75 | 83.91 | 88.67 | 90.04 | 73.36 | 47.30 | 54.94 | 55.89 | 47.97 | 67.68 | 76.72 | 44.33 |
| 🥈 2 | Applied-Innovation-Center/Karnak | 66.20 | 73.33 | 80.94 | 53.49 | 81.40 | 93.10 | 89.08 | 55.92 | 55.78 | 71.58 | 61.06 | 54.19 | 33.54 | 64.55 | 58.91 |
| 🥉 3 | inceptionai/Jais-2-70B-Chat | 65.81 | 78.89 | 81.29 | 83.24 | 83.73 | 87.96 | 90.23 | 71.78 | 52.79 | 69.60 | 51.67 | 50.89 | 19.51 | 43.65 | 56.13 |
| #4 | Qwen/Qwen2.5-72B-Instruct | 65.75 | 77.22 | 73.78 | 63.83 | 77.77 | 87.55 | 88.51 | 63.49 | 50.06 | 70.74 | 55.90 | 44.19 | 37.20 | 72.75 | 57.51 |
| #5 | Applied-Innovation-Center/AIC-1 | 65.37 | 73.33 | 72.02 | 77.52 | 76.11 | 88.13 | 90.61 | 56.36 | 53.75 | 68.96 | 62.11 | 50.78 | 28.05 | 69.58 | 47.83 |
| #6 | Qwen/Qwen3.5-122B-A10B | 64.84 | 74.44 | 73.17 | 37.78 | 81.46 | 86.18 | 86.97 | 64.01 | 47.04 | 55.11 | 50.90 | 52.49 | 65.24 | 72.43 | 60.54 |
| #7 | Sakalti/Ultiima-72B | 64.49 | 78.33 | 72.28 | 68.79 | 76.75 | 83.70 | 89.08 | 60.44 | 44.58 | 69.12 | 46.91 | 42.25 | 39.02 | 74.07 | 57.56 |
| #8 | meta-llama/Llama-3.3-70B-Instruct | 63.96 | 77.22 | 71.57 | 78.05 | 77.95 | 88.28 | 85.63 | 67.44 | 56.25 | 64.00 | 51.13 | 54.86 | 27.44 | 71.16 | 24.43 |
| #9 | Qwen/Qwen2.5-32B-Instruct | 63.26 | 70.56 | 68.76 | 75.80 | 72.07 | 81.03 | 85.82 | 53.78 | 48.08 | 69.27 | 56.94 | 36.51 | 34.15 | 72.75 | 93.10 |
| #10 | FreedomIntelligence/AceGPT-v2-32B-Chat | 61.14 | 76.67 | 70.62 | 79.79 | 74.46 | 84.88 | 86.97 | 63.89 | 49.96 | 71.46 | 56.04 | 47.32 | 23.78 | 54.50 | 15.56 |
- 规模并不能保证最佳性能。 前 10 名涵盖从 32B 到 397B 参数的模型,多个中等规模模型在特定领域超越了更大模型。
- 阿拉伯语专用模型在文化和语言任务上领先。 Jais-2-70B-Chat 在 ArabicMMLU 和 ArabCulture 上排名最高,而 Karnak 在 3LM STEM 和 ArabLegalQA 上领先。
- 编程仍是阿拉伯语专用模型最难的领域。 HumanEval+ 和 MBPP+ 的最高分属于多语言模型,Qwen3.5-397B 在两项上均领先。
规模与性能的关系
纵观完整排行榜(46 个模型),规模与性能之间存在明显但不完美的相关性。然而,也存在有趣的例外:
c64aafc7-1 (https://cdn-uploads.huggingface.co/production/uploads/66c8620a79b42e5c941b0265/KPdYTBwzMvJEyALTYfGji.png)
- 阿拉伯语专用模型经常超越同等规模的多语言模型
- 指令微调模型持续超越其基础版本,Qwen3 除外
- 一些较小的阿拉伯语专用模型(Fanar-1-9B, ALLaM-7B)在特定领域超越大得多的多语言模型
🌟 QIMMA 的独特之处
总结 QIMMA 的 distinctive 特性:
| 特性 | 详情 |
|---|---|
| 质量优先理念 | 验证在评估之前进行,而非事后补救 |
| 多模型验证 | 两个训练数据不同的 LLM + 对标记案例的人工审核 |
| 99% 原生阿拉伯语 | 几乎完全避免翻译产物 |
| 多领域、多任务 | 7 个领域,3 种任务类型(MCQ、QA、编程),109 个子集 |
| 编程评估 | 首个包含代码生成的阿拉伯语排行榜 |
| 完全透明 | 公开逐样本推理输出,而非仅聚合分数 |
| 基于 LightEval | 统一、可复现的评估代码库 |
| 方言意识 | 在提示和评分标准中明确处理现代标准阿拉伯语与方言变体 |
🔗 资源
🔖 引用
@misc{qimma2025,
title={QIMMA: A Quality-First Arabic LLM Leaderboard},
author={TII UAE},
year={2025},
howpublished={\url{https://huggingface.co/blog/tiiuae/qimma-arabic-leaderboard}}
}
相似文章
QU-NLP 亮相 QIAS 2026:面向阿拉伯语伊斯兰继承推理的多阶段 QLoRA 微调
本文介绍了卡塔尔大学针对阿拉伯语伊斯兰继承推理提出的基于 Qwen3-4B 的多阶段 QLoRA 微调方法。该方法首先对伊斯兰教令(fatwa)记录进行领域适配,随后在 12,000 个结构化继承案例上进行任务特定训练,最终达到 90% 的 MIR-E 得分。其性能媲美 Gemini-2.5-flash 等商业系统,且仅需极少的计算资源。
超越选择题:带有方言变体的开放式阿拉伯文化问答基准
本文介绍了首个跨越现代标准阿拉伯语和多种方言的平行阿拉伯文化问答基准,将选择题转换为开放式问题,并利用思维链推理评估大语言模型,以解决文化知识和方言特定知识的缺陷。
CulturALL:评测大模型多语言多文化能力的实景基准
CulturALL 发布含 2,610 条样本、覆盖 14 种语言和 51 个地区的实景基准,用于检验大模型在真实文化场景下的表现;目前最佳模型仅得 44.48%,提升空间巨大。
我在 MacBook Air M5 上对 21 款本地大模型进行了代码质量与速度的性能评测
一位开发者在 MacBook Air M5 上使用 HumanEval+ 对 21 款本地大模型进行了基准测试,发现 Qwen 3.6 35B-A3B (MoE) 以 89.6% 的得分和 16.9 tok/s 的速度位居榜首,而 Qwen 2.5 Coder 7B 仅需 4.5 GB 内存即可达到 84.2% 的性能,拥有最佳的内存性价比。值得注意的是,Gemma 4 系列的表现远低于预期(31B 版本仅得 31.1%),这可能是受 Q4_K_M 量化策略的影响。
SAHM:首个阿拉伯语金融与符合伊斯兰教法推理基准
研究人员发布 SAHM,首个包含 14,380 条专家验证样本的阿拉伯语金融基准,涵盖符合伊斯兰教法的推理,20 个受评 LLM 表现差距显著。